DOM解析XML

阿拉丁没有神灯

浏览: 179272 次
性别:
来自: 南京

最近访客更多访客>>

我真的好无奈

weet77

raintip

konnysnow

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

xml dom

在XML文件中由于更多的是描述信息的内容，所以在得到一个XML文档后应该利用程序按照其中元素的定义名称取出对应的内容，这样的操作就称为XML解析。

在XML解析中，W3C定义了SAX和DOM两种解析方式。

DOM树解析所提供的随机访问方式给应用程序开发带来很大的灵活性，它可以任意地控制整个XML文档的内容，然而由于DOM分析器把整个XML文档转化成DOM树放在了内存中，因此，当文档较大或者结果较复杂时，对内存的需求较高。综上，DOM分析器对机器性能的要求比较高，程序的效率并不是十分理想。但是DOM所采用的树结构的思想与XML文档的结果相吻合，同时随机访问带来的方便，所以DOM分析器还是有很广泛的使用价值。

下面是实例简单的描述如何DOM解析XML.
要解析的文件demo01.xml

<?xml version="1.0" encoding="GBK"?>
<addressList>
	<linkman>
		<name>ss</name>
		<email>ss@163.com</email>
    </linkman>
	<linkman>
		<name>dd</name>
		<email>dd@163.com</email>
    </linkman>
</addressList>

/**
 * DOM解析XML文件
 */
import java.io.File;
import java.io.IOException;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;

import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;

public class DOMDemo1 {
	public static void main(String[] args) {
		//①建立DocumentBuilderFactory，用于取得DocumentBuilder
		DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
		
		//②通过DocumentBuilderFactory取得DocumentBuilder
		DocumentBuilder builder = null;
		try {
			builder = factory.newDocumentBuilder();
		} catch (ParserConfigurationException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
		//③定义Document对象，通过DocumentBuilder来进行DOM树的转换操作，builder.parse()相当于将所有的XML文档内容读取到内存中
		Document doc = null;
		try {
			doc = builder.parse("D:"+File.separator+"testXML\\demo01.xml");
		} catch (SAXException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
		//④由Document对象查找指定的节点
		NodeList nl = doc.getElementsByTagName("linkman");
		
		//⑤输出节点的文本内容
		for (int i = 0; i < nl.getLength(); i++) {
			Element e = (Element)nl.item(i);
			System.out.println("姓名： "+e.getElementsByTagName("name").item(0).getFirstChild().getNodeValue());
			System.out.println("邮箱： "+e.getElementsByTagName("email").item(0).getFirstChild().getNodeValue());
		}
		
	}

}

姓名： ss
邮箱： ss@163.com
姓名： dd
邮箱： dd@163.com

但是有点不明白的是，当我的xml文档内的文本有中文的时候，我把encoding="UTF-8"，为什么会报这个错，求大神指教

java.io.UTFDataFormatException: 1 字节 UTF-8 序列的无效字节 1。
	at org.apache.xerces.impl.io.UTF8Reader.invalidByte(Unknown Source)
	at org.apache.xerces.impl.io.UTF8Reader.read(Unknown Source)
	at org.apache.xerces.impl.XMLEntityScanner.load(Unknown Source)
	at org.apache.xerces.impl.XMLEntityScanner.skipChar(Unknown Source)
	at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl$FragmentContentDispatcher.dispatch(Unknown Source)
	at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanDocument(Unknown Source)
	at org.apache.xerces.parsers.XML11Configuration.parse(Unknown Source)
	at org.apache.xerces.parsers.DTDConfiguration.parse(Unknown Source)
	at org.apache.xerces.parsers.XMLParser.parse(Unknown Source)
	at org.apache.xerces.parsers.DOMParser.parse(Unknown Source)
	at org.apache.xerces.jaxp.DocumentBuilderImpl.parse(Unknown Source)
	at javax.xml.parsers.DocumentBuilder.parse(Unknown Source)
	at dwc.DOMDemo1.main(DOMDemo1.java:35)
Exception in thread "main" java.lang.NullPointerException
	at dwc.DOMDemo1.main(DOMDemo1.java:45)

找到一种上面的解决方法就是把xml文件另存为,转换器或编码为UTF-8,这样再读就没错了。

但是我在网上看到另一种不另存转换的方法，就是
将doc改为

doc = builder.parse(new InputSource(new InputStreamReader(new FileInputStream("D:"+File.separator+"testXML\\demo01.xml"),"UTF-8")));

可是我这样会报错

sun.io.MalformedInputException
	at sun.io.ByteToCharUTF8.convert(ByteToCharUTF8.java:194)
	at sun.nio.cs.StreamDecoder$ConverterSD.convertInto(StreamDecoder.java:286)
	at sun.nio.cs.StreamDecoder$ConverterSD.implRead(StreamDecoder.java:317)
	at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:222)
	at java.io.InputStreamReader.read(InputStreamReader.java:207)
	at org.apache.xerces.impl.XMLEntityScanner.load(Unknown Source)
	at org.apache.xerces.impl.XMLEntityScanner.scanName(Unknown Source)
	at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanStartElement(Unknown Source)
	at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl$FragmentContentDispatcher.dispatch(Unknown Source)
	at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanDocument(Unknown Source)
	at org.apache.xerces.parsers.XML11Configuration.parse(Unknown Source)
	at org.apache.xerces.parsers.DTDConfiguration.parse(Unknown Source)
	at org.apache.xerces.parsers.XMLParser.parse(Unknown Source)
	at org.apache.xerces.parsers.DOMParser.parse(Unknown Source)
	at org.apache.xerces.jaxp.DocumentBuilderImpl.parse(Unknown Source)
	at dwc.DOMDemo1.main(DOMDemo1.java:39)
Exception in thread "main" java.lang.NullPointerException
	at dwc.DOMDemo1.main(DOMDemo1.java:49)

分享到：