在XOM中解析XHTML文档时DTD下载错误

2018-06-12 04:36:25

我试图解析一个HTML文档，声明的doctype使用过渡性dtd，如下所示：

<！DOCTYPE html PUBLIC“ - // W3C // DTD XHTML 1.0 Transitional // EN”“http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”>

当我在文档上执行Builder.build时，出现以下异常：

  java.io.IOException: Server returned HTTP response code: 503 for URL: http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd
       at sun.net.www.protocol.http.HttpURLConnection.getInputStream(HttpURLConnection.java:1305)
       at org.apache.xerces.impl.XMLEntityManager.setupCurrentEntity(Unknown Source)
       at org.apache.xerces.impl.XMLEntityManager.startEntity(Unknown Source)
       at org.apache.xerces.impl.XMLEntityManager.startDTDEntity(Unknown Source)
       at org.apache.xerces.impl.XMLDTDScannerImpl.setInputSource(Unknown Source)
       at org.apache.xerces.impl.XMLDocumentScannerImpl$DTDDispatcher.dispatch(Unknown Source)
       at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanDocument(Unknown Source)
       at org.apache.xerces.parsers.DTDConfiguration.parse(Unknown Source)
       at org.apache.xerces.parsers.DTDConfiguration.parse(Unknown Source)
       at org.apache.xerces.parsers.XMLParser.parse(Unknown Source)
       at org.apache.xerces.parsers.AbstractSAXParser.parse(Unknown Source)
       at nu.xom.Builder.build(Builder.java:1127)
       at nu.xom.Builder.build(Builder.java:1019)

如果我删除文档类型声明，它解析得很好。我可以从我的浏览器成功下载dtd，它告诉我该网址是有效的。我不想删除文档类型声明。有没有办法告诉建设者不要下载dtd或者提供替代的dtd？

快速浏览一下Builder的javadoc，我想你可以通过带有XMLReader的构造函数来提供一个EntityResolver。我会避免让解析器尽可能从互联网上下载文件。

这解决了这个问题：

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
            factory.setValidating(false);
            factory.setFeature("http://apache.org/xml/features/nonvalidating/load-external-dtd", false);
            Document document = factory.newDocumentBuilder().parse(is);

链接地址: http://www.djcxy.com/p/34893.html

上一篇: DTD download error while parsing XHTML document in XOM

下一篇: SAX character buffer size