`

DOM解析XML

    博客分类:
  • XML
阅读更多
在XML文件中由于更多的是描述信息的内容,所以在得到一个XML文档后应该利用程序按照其中元素的定义名称取出对应的内容,这样的操作就称为XML解析。

在XML解析中,W3C定义了SAX和DOM两种解析方式。

DOM树解析所提供的随机访问方式给应用程序开发带来很大的灵活性,它可以任意地控制整个XML文档的内容,然而由于DOM分析器把整个XML文档转化成DOM树放在了内存中,因此,当文档较大或者结果较复杂时,对内存的需求较高。综上,DOM分析器对机器性能的要求比较高,程序的效率并不是十分理想。但是DOM所采用的树结构的思想与XML文档的结果相吻合,同时随机访问带来的方便,所以DOM分析器还是有很广泛的使用价值。

下面是实例简单的描述如何DOM解析XML.
要解析的文件demo01.xml

<?xml version="1.0" encoding="GBK"?>
<addressList>
	<linkman>
		<name>ss</name>
		<email>ss@163.com</email>
    </linkman>
	<linkman>
		<name>dd</name>
		<email>dd@163.com</email>
    </linkman>
</addressList>


/**
 * DOM解析XML文件
 */
import java.io.File;
import java.io.IOException;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;

import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;

public class DOMDemo1 {
	public static void main(String[] args) {
		//①建立DocumentBuilderFactory,用于取得DocumentBuilder
		DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
		
		//②通过DocumentBuilderFactory取得DocumentBuilder
		DocumentBuilder builder = null;
		try {
			builder = factory.newDocumentBuilder();
		} catch (ParserConfigurationException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
		//③定义Document对象,通过DocumentBuilder来进行DOM树的转换操作,builder.parse()相当于将所有的XML文档内容读取到内存中
		Document doc = null;
		try {
			doc = builder.parse("D:"+File.separator+"testXML\\demo01.xml");
		} catch (SAXException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
		//④由Document对象查找指定的节点
		NodeList nl = doc.getElementsByTagName("linkman");
		
		//⑤输出节点的文本内容
		for (int i = 0; i < nl.getLength(); i++) {
			Element e = (Element)nl.item(i);
			System.out.println("姓名: "+e.getElementsByTagName("name").item(0).getFirstChild().getNodeValue());
			System.out.println("邮箱: "+e.getElementsByTagName("email").item(0).getFirstChild().getNodeValue());
		}
		
	}

}



姓名: ss
邮箱: ss@163.com
姓名: dd
邮箱: dd@163.com



但是有点不明白的是,当我的xml文档内的文本有中文的时候,我把encoding="UTF-8",为什么会报这个错,求大神指教

java.io.UTFDataFormatException: 1 字节 UTF-8 序列的无效字节 1。
	at org.apache.xerces.impl.io.UTF8Reader.invalidByte(Unknown Source)
	at org.apache.xerces.impl.io.UTF8Reader.read(Unknown Source)
	at org.apache.xerces.impl.XMLEntityScanner.load(Unknown Source)
	at org.apache.xerces.impl.XMLEntityScanner.skipChar(Unknown Source)
	at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl$FragmentContentDispatcher.dispatch(Unknown Source)
	at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanDocument(Unknown Source)
	at org.apache.xerces.parsers.XML11Configuration.parse(Unknown Source)
	at org.apache.xerces.parsers.DTDConfiguration.parse(Unknown Source)
	at org.apache.xerces.parsers.XMLParser.parse(Unknown Source)
	at org.apache.xerces.parsers.DOMParser.parse(Unknown Source)
	at org.apache.xerces.jaxp.DocumentBuilderImpl.parse(Unknown Source)
	at javax.xml.parsers.DocumentBuilder.parse(Unknown Source)
	at dwc.DOMDemo1.main(DOMDemo1.java:35)
Exception in thread "main" java.lang.NullPointerException
	at dwc.DOMDemo1.main(DOMDemo1.java:45)




找到一种上面的解决方法 就是把xml文件另存为,转换器或编码为UTF-8,这样再读就没错了。

但是我在网上看到另一种不另存转换的方法,就是
将doc改为
doc = builder.parse(new InputSource(new InputStreamReader(new FileInputStream("D:"+File.separator+"testXML\\demo01.xml"),"UTF-8")));


可是我这样会报错
sun.io.MalformedInputException
	at sun.io.ByteToCharUTF8.convert(ByteToCharUTF8.java:194)
	at sun.nio.cs.StreamDecoder$ConverterSD.convertInto(StreamDecoder.java:286)
	at sun.nio.cs.StreamDecoder$ConverterSD.implRead(StreamDecoder.java:317)
	at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:222)
	at java.io.InputStreamReader.read(InputStreamReader.java:207)
	at org.apache.xerces.impl.XMLEntityScanner.load(Unknown Source)
	at org.apache.xerces.impl.XMLEntityScanner.scanName(Unknown Source)
	at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanStartElement(Unknown Source)
	at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl$FragmentContentDispatcher.dispatch(Unknown Source)
	at org.apache.xerces.impl.XMLDocumentFragmentScannerImpl.scanDocument(Unknown Source)
	at org.apache.xerces.parsers.XML11Configuration.parse(Unknown Source)
	at org.apache.xerces.parsers.DTDConfiguration.parse(Unknown Source)
	at org.apache.xerces.parsers.XMLParser.parse(Unknown Source)
	at org.apache.xerces.parsers.DOMParser.parse(Unknown Source)
	at org.apache.xerces.jaxp.DocumentBuilderImpl.parse(Unknown Source)
	at dwc.DOMDemo1.main(DOMDemo1.java:39)
Exception in thread "main" java.lang.NullPointerException
	at dwc.DOMDemo1.main(DOMDemo1.java:49)


分享到:
评论
2 楼 a2614533 2012-11-12  
    要是有写入xml的就好了。。。
1 楼 a2614533 2012-11-12  
 

相关推荐

Global site tag (gtag.js) - Google Analytics