日期:2009-09-21  浏览次数:20948 次

北京邮电大学 张剑  

1、DOM树 
所有类型的XML解析器都要求处理对象是“格式良好”的XML文档,有些还能根据DTD或XML Schema进行有效性验证,DOM(Document Object Model)解析器将XML文档一次性解析,生成一个位于内存中的对象树用以描述该文档。 


DOM是一种与平台和语言无关的接口,它允许程序和脚本动态访问和修改文档的内容、结构和类型。它定义了一系列的对象和方法对DOM树的节点进行各种随机操作: 
● Document对象:作为树的最高节点,Document对象是对整个文档进行操作的入口。 
● Element和Attr对象:这些节点对象都是文档某一部分的映射,节点的定级层次恰好反映了文档的结构。 
● Text对象:作为Element和Attr对象的子节点,Text对象表达了元素或属性的文本内容。Text节点不再包含任何子节点。 
● 集合索引:DOM提供了几种集合索引方式,可以对节点按指定方式进行遍历。索引参数都是从0开始记数的。 
DOM树中的所有节点都是从Node对象继承而来的。Node对象定义了一些最基本的属性和方法,利用这些方法可以实现对树的遍历,同时,根据属性还可以得知节点的名称、取值并判断其类型。 
利用DOM,开发人员可以动态地创建XML、遍历文档、增加/删除/修改文档内容。DOM提供的API与编程语言无关,所以对一些DOM标准中没有明确定义的接口,不同解析器的实现方法也可能有所差别。为方便描述,本文的举例均采用MSXML DOM方案并用VB Script编写代码。 
2、DOM树的结构 
Document对象建立之后,就可以与XML文档或数据岛联系在一起。数据岛的加载方法是将数据岛ID赋给Document对象: 
<XML ID=“dsoDetails” src=../../“Books.XML”></XML> 
Set doc = dsoDetails.XMLDocument 
加载文档大体上分为三步: 
1.使用CreateObject方法创建分析器实例; 
2.设置async属性为False,禁止异步加载,这样当文档加载完毕,控制权才会返回给调用进程,如果想获取文档加载状态,可以读取readyState属性值; 
3.使用load方法加载指定文档。 
Set doc = CreateObject(“Microsoft.XMLDOM”) 
doc.async = False 
doc.load “Books.XML” 
XML DOM还提供了一种loadXML的方法可以把XML字符串加载到DOM树中,使用时只要把XML字符串直接作为该方法的参数即可。 
3、DOM树的访问 
在文档加载完毕之后就可以使用documentElement属性访问根元素: 
Set rootNode = doc.documentElement 
一旦建立了对DOM树中某个节点(例如根节点)的引用,就可以根据节点间的等级关系调用适当的方法进行遍历。 
下面以books.XML为例说明各种方法的使用: 
<XML id=“dsoBooks”> 
<?XML version=“1.0”?><booklist><book> 
<title>The Gourmet Microwave</title>  
<price>9.95</price> 
<author>Charlotte M. Cooper</author> 
<author>Shelley B. Burke</author> 
<author>Regina P. Murphy</author> 
</book><book> 
<title>Sushi, Anyone?</title>  
<price>14.99</price></book><book> 
<title>Straight Talk About Computers</title> <price>19.99</price> 
<author>Lars Peterson</author> 
</book></booklist></XML> 
建立对第二个<book>元素的引用: 
Set theNode =dsoBooks.XMLDocument.documentElement.childNodes(1) 
● 根节点:theNode.ownerDocument返回Document节点,指向XML文档本身; 
● 兄弟节点:theNode.previousSibling返回第1个<book>元素,theNode.nextSibling返回第3个<book>元素; 
● 父节点:theNode.parentNode返回<booklist>元素; 
● 子节点:theNode.firstChild返回<title>元素,theNode.lastChild返回<price>元素,theNode.childNodes返回子节点集合,包括Sushi下面的所有元素。节点记数从0开始,即theNode.childNodes(0)的结果与theNode.firstChild的结果是一样的。 
获得节点的引用后,就可以读取节点的相关信息: 
● 节点类型:theNode.nodeType,本例为1,Document对象类型为9,元素类型为1,属性类型为2; 
● 节点名称:theNode.nodeName,本例为book; 
● 节点值:theNode.node&#118alue,本例为null,对于Attr节点,返回的是属性值,而对于Element节点,返回的是null。 
在MSXML中,对Node对象还提供了一些额外的方法和属性: 
● nodeTypeString:用字符串的方式显示节点类型,如theNode.nodeTypeString的结果是“element”; 
● text: 显示当前节点及其所有子节点的文本内容; 
● XML:获取XML文档数据,通常是从根元素开始的所有内容。 
4、XML格式的动态转换 
通过学习XSL,我们已经能够使用样式单对XML文档进行转换。但这种过程是静态的,即在编写代码时,已经指定了作用在XML上的XSL文件,在程序运行过程中不能再做改变。而利用DOM,我们能够实现XML格式的动态转换,即在程序运行时,将XSL载入并对XML文档进行转换。 
把XSL载入DOM对象的步骤基本上与XML文档的载入过程是一样的(XSL本身就是XML文档): 
Set stylesheet = CreateObject(“Microsoft.XMLDOM”) 
stylesheet.async = False 
stylesheet.load “TransformDeta