博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python XML的解析与创建
阅读量:4041 次
发布时间:2019-05-24

本文共 4852 字,大约阅读时间需要 16 分钟。

常见的XML编程接口有DOM和SAX,这两种接口处理XML文件的方式不同,当然是用是用场合也不同。

Python有三种方法解析XML:

  • SAX(不常用)
  • DOM
  • ElementTree

SAX(simple API for XML)

Python标准库中包含SAX解析器,SAX是用的是事件驱动模型,通过在解析XML过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件。

解析的基本过程:
读到一个XML开始标签,就会开始一个事件,然后事件就会调用一系列的函数去处理一些事情,当读到一个结束标签时,就会触发另一个事件。所以,我们写XML文档入如果有格式错误的话,解析就会出错。
这是一种流式处理,一边读一边解析,占用内存少,可以处理一些大的文件,但是把大文件读到缓存中缓存起来就比较难,这样就会影响效率。

DOM(Document Object Model)

将XML数据在内存中解析成一个树,通过对树的操作来操作XML。

由于DOM是将XML读取到内存,然后解析成一个树,如果要处理的XML文本比较大的话,就会很耗内存,所以DOM一般偏向于处理一些小的XML,(如配置文件)比较快,

ElementTree(Object Model)

ElementTree就像一个轻量级的DOM,具有方便而友好的API。代码的可用性好、速度快、消耗内存少。可以认为是对DOM的改进。

XML解析基本思路是

现将xml文档内容一次性全部读入内存并解析成树结构,然后拿到这个树结构的根结点,然后我们就可以通过调用解析XML的一些函数来操作这个树了,也就是操作xml文档数据。

xml.dom解析xml

文件对象模型(Document Object Model,简称DOM),是W3C组织推荐处理可扩展语言的标准编程接口。

一个 DOM 的解析器在解析一个 XML 文档时,一次性读取整个文档,把文档中所有元素保存在内存中的一个树结构里,之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构,也可以把修改过的内容写入xml文件。
下面是一个简单的xml文档实例(book.xml):

learning math
张三
561
learning Python
李四
600

使用Python的xml.dom.minidom模块来解析这个xml文件:

#!/usr/bin/python#coding=utf-8import xml.dom.minidomfrom xml.dom.minidom import parse #从xml.dom.minidom模块引入解析器parse#minidom解析器打开xml文档并将其解析为内存中的一棵树DOMTree = xml.dom.minidom.parse(r"C:\book.xml")#获取xml文档对象,就是拿到树的根booklist = DOMTree.documentElementif booklist.hasAttribute("type") :   #判断根节点booklist是否有type属性,有则获取并打印属性的值  print "Root element is", booklist.getAttribute("type")#获取booklist对象中所有book节点的list集合books = booklist.getElementsByTagName("book")print "book节点的个数:", books.lengthfor book in books :  print "*******************book*******************"  if book.hasAttribute("category") :    print "category is", book.getAttribute("category")  #根据结点名title拿到这个book结点下所有的title结点的集合list。  #[0]表示第一个title标签,因为一个
...
之间可能会 #定义多个title标签 title = book.getElementsByTagName('title')[0] print "Title is", title.childNodes[0].data author = book.getElementsByTagName('author')[0] print "author is", author.childNodes[0].data pageNumber = book.getElementsByTagName('pageNumber')[0] print "pageNumber is", pageNumber.childNodes[0].data

执行结果:

Root element is science and engineeringbook节点的个数: 2*******************book*******************category is mathTitle is learning mathauthor is 张三pageNumber is 561*******************book*******************category is PythonTitle is learning Pythonauthor is 李四pageNumber is 600

由于xml的标签、属性都是程序员自已定义的,所以一个标签下可以出现多个同名的标签,就像上面的的标签或者是像下面这样:

learning math
title test
张三
561

上面解析xml的程序中,getElementsByTagName()函数返回的是同一父节点下所有同级(即兄弟节点)节点中相同标签的集合(就像上面的两个标签一样),这是一个list对象,所以可以使用list序列所有操作。这个时候,我们可以通过索引去拿相应的节点,也可以使用节点名称去拿相应的节点,推荐第二种方法,准确。也可以通过循环遍历整个返回的list。

xml.dom模块解析xml的部分API函数

  • minidom.parse()

函数原型:

parse(file, parser=None, bufsize=None)    Parse a file into a DOM by filename or file object.

函数作用是使用parse解析器打开xml文档并将其解析为一个DOM文档,也就是内存中的一棵树。

  • doc.documentElement

    获取xml文档对象,就是拿到树的根。

  • doc.toxml()

函数原型:

toxml(self, encoding=None) method of xml.dom.minidom.Document instance

返回xml的文本内容。如:

>>> DOMTree.toxml('utf-8')'
\n
\n
learning math\n
\xe5\xbc\xa0\xe4\xb8\x89
\n
561
\n
\n
\n
learning Python\n
\xe6\x9d\x8e\xe5\x9b\x9b
\n
600
\n
\n'

如果我们只知道xml文件名,不知道里面的内容,就可以使用这个函数查看。

  • node.hasAttribute()

函数原型:

hasAttribute(self, name) method of xml.dom.minidom.Element instance

判断某个节点node是否存在某个属性,存在返回True,否则返回False。如:

if booklist.hasAttribute("type") :

:这里用的实例是book.xml文档中的。下同

  • node. getAttribute()
    原型:
getAttribute(self, attname) method of xml.dom.minidom.Element instance

获取节点node的某个属性的值。如:

print "Root element is", booklist.getAttribute("type")
  • node.getElementsByTagName()

原型:

getElementsByTagName(self, name) method of xml.dom.minidom.Element instance

获取XML文档中节点对象集合。如:

books = booklist.getElementsByTagName("book")

表示获取booklist节点下所有节点名为book组成的对象集合,这是一个list,因此list所有的操作都可以用于它。

  • node.childNodes
    返回node下所有子节点组成的list。如查看节点下的子节点:
>>> books[0].childNodes[
,
,
,
,
,
,
]

从结果看出,列表中第一个元素是books[0]这个标签下一个文本子节点(默认就是有的),里面存的是该节点的值,此处由于是一个父节点,没有设置值,所以为回车符。

如:

print author.childNodes[
]

由于叶子节点下没有子节点了,所以只返回了该叶子节点默认的文本子节点。

这样就算我们不知道原xml文档结构怎样,就可以使用这个函数来一层层的查看xml文档中的节点。

  • node.childNodes[index].data

获取节点的值。如:

print "Title is", title.childNodes[0].data
  • node .hasChildNodes()

判断节点node下是否有叶子节点,如有返回True,否则返回False,但是需要注意的是,每个节点都默认有一个文本叶子节点,所以只要标签后有值,就会返回True,只有当标签后没值时才会返回False。如:

print author.hasChildNodes()

原xml文件中author标签下没有子标签,但是有值,所以返回结果是True。下面的情况就会返回False:

有了这个函数,我们可以在不知道xml文档结构的情况下操作xml文档了。

如果还想使用其他的函数,可以使用dir()或help()函数查看各个类拥有的方法和属性。

转载地址:http://gcmdi.baihongyu.com/

你可能感兴趣的文章
[关注大学生]读“贫困大学生的自白”
查看>>
[互联网关注]李开复教大学生回答如何学好编程
查看>>
[关注大学生]李开复给中国计算机系大学生的7点建议
查看>>
[关注大学生]大学毕业生择业:是当"鸡头"还是"凤尾"?
查看>>
[茶余饭后]10大毕业生必听得歌曲
查看>>
gdb调试命令的三种调试方式和简单命令介绍
查看>>
C++程序员的几种境界
查看>>
VC++ MFC SQL ADO数据库访问技术使用的基本步骤及方法
查看>>
VUE-Vue.js之$refs,父组件访问、修改子组件中 的数据
查看>>
Vue-子组件改变父级组件的信息
查看>>
Python自动化之pytest常用插件
查看>>
Python自动化之pytest框架使用详解
查看>>
【正则表达式】以个人的理解帮助大家认识正则表达式
查看>>
性能调优之iostat命令详解
查看>>
性能调优之iftop命令详解
查看>>
非关系型数据库(nosql)介绍
查看>>
移动端自动化测试-Windows-Android-Appium环境搭建
查看>>
Xpath使用方法
查看>>
移动端自动化测试-Mac-IOS-Appium环境搭建
查看>>
Selenium之前世今生
查看>>