查看: 1050|回复: 6
|
如何用java 把 HTML parse 去 XML DOM?
[复制链接]
|
|
想请问各位java神,如何用java 把 HTML parse 去 XML DOM? |
|
|
|
|
|
|
|
发表于 28-11-2005 09:17 PM
|
显示全部楼层
|
|
|
|
|
|
|

楼主 |
发表于 29-11-2005 10:50 AM
|
显示全部楼层
用 XHTML 是把 XML 当 HTML 用,但是我需要把 HTML 当 XML 用。我需要改HTML里面的tag。请多多帮忙。 |
|
|
|
|
|
|
|

楼主 |
发表于 29-11-2005 11:00 AM
|
显示全部楼层
其实我有用过以下方法啦,但是不是很管用,毕竟XML parser 不适合当 HTML parser 用。只是想问还有没有别的方法吧了。
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
try {
DocumentBuilder builder = factory.newDocumentBuilder();
document = builder.parse(URL);
document.getDocumentElement().normalize();
} catch (SAXParseException spe) {
System.out.println("\n** Parsing error"
+ ", line " + spe.getLineNumber()
+ ", uri " + spe.getSystemId());
System.out.println(" " + spe.getMessage() );
Exception x = spe;
if (spe.getException() != null)
x = spe.getException();
x.printStackTrace();
} catch (SAXException sxe) {
Exception x = sxe;
if (sxe.getException() != null)
x = sxe.getException();
x.printStackTrace();
} catch (ParserConfigurationException pce) {
pce.printStackTrace();
} catch (IOException ioe) {
ioe.printStackTrace();
} |
|
|
|
|
|
|
|
发表于 29-11-2005 04:14 PM
|
显示全部楼层
为什么要这样做呢?HTML是含盖DATA及PRESENTATION的LANGUAGE,而XML只是DATA,没有PRESENTATION的。要把一个HTML parse 去 XML DOM要费很大功夫。。。因为必须隔开HTML的PRESENTATION CODE。。。还是不明白为什么要这样做。。。
[ 本帖最后由 须祢 于 29-11-2005 04:15 PM 编辑 ] |
|
|
|
|
|
|
|
发表于 29-11-2005 05:26 PM
|
显示全部楼层
原帖由 ramen 于 29-11-2005 10:50 AM 发表
用 XHTML 是把 XML 当 HTML 用,但是我需要把 HTML 当 XML 用。
???
http://www.w3.org/TR/xhtml1
如果文件是你自己写的话,而且要动用XML Parser就不应该用HTML了;
如果文件是远程的话,改TagName也不太可能吧? |
|
|
|
|
|
|
|

楼主 |
发表于 30-11-2005 11:57 AM
|
显示全部楼层
我在做着一个叫 Content Adaptation 的 program。这个program 基本上是把网页load到一个可以filter content和载录要点的server,然后再送到mobile devices上。就因为需要filter content,所以才需要这么麻烦用 XML DOM。 |
|
|
|
|
|
|
| |
本周最热论坛帖子
|