Python 处理 xml 文档的方法有很多,除了经典的 sax 和 dom 之外,还有一个 ElementTree。
首先 import 之:
1 | from xml.etree import ElementTree as etree |
然后开始构建 xml 树:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | from xml.etree.ElementTree import Element, SubElement, ElementTree # 生成根节点 root = Element( 'root' ) # 生成第一个子节点 head head = SubElement(root, 'head' ) # head 节点的子节点 title = SubElement(head, 'title' ) title.text = 'Well Dola!' # 生成 root 的第二个子节点 body body = SubElement(root, 'body' ) # body 的内容 body.text = 'I love Dola!' tree = ElementTree(root) |
这样就得到了一个 xml 树的对象 tree 以及它的根节点的对象 root
接着我们把它们变成 xml 串,有两个办法,一个是用 tree 对象的 write 方法将 xml 内容写成一个文件,还有一个是用 etree 的 tostring 方法转成 xml 字符串:
1 2 3 4 5 | # 第一种 tree.write( 'result.xml' , encoding = 'utf-8' ) # 第二种 xml_string = etree.tostring(root) # xml_string 就是 xml 字符串了 |
但是第二种有一个问题,就是它没有
1 | <? xml version = "1.0" ?> |
这个头部定义内容:
1 | '< root >< head >< title >Well Dola!</ title ></ head >< body >I love Dola!</ body ></ root >' |
怎么办呢?
有一个办法是使用 minidom 来实现,方法如下:
1 2 3 4 5 | from xml.dom import minidom # 使用 minidom 解析 tree = minidom.parseString(xml_string) # 重新生成 xml 字符串 xml_string = tree.toxml() |
虽然让计算机多运行了一些代码,但是这样可以把问题解决掉。
最后生成的 xml 代码如下:
1 | u'<? xml version = "1.0" ?>< root >< head >< title >Well Dola!</ title ></ head >< body >I love Dola!</ body ></ root >' |
当然还可以使用 minidom 中 tree 对象的 toprettyxml 方法把 xml 打得漂亮一点。