Python使用ElementTree美化XML格式的操作


Posted in Python onMarch 06, 2020

Python中使用ElementTree可以很方便的处理XML,但是产生的XML文件内容会合并在一行,难以看清楚。

如下格式:

<root><aa>aatext<cc>cctext</cc></aa><bb>bbtext<dd>ddtext<ee>eetext</ee></dd></bb></root>

使用minidom模块中的toprettyxml和writexml方法都有参数可以优化XML,但是有两个问题:

a. 如果解析的XML已经是美化过的,那么执行该方法会多出很多空行

b. 产生的结果会将text也独立一行,如下:

<root> 
  <aa> 
    aatext 
  </aa> 
  <bb> 
    bbtext 
  </bb> 
</root>

而我想产生如下结果:

<root> 
  <aa>aatext</aa> 
  <bb>bbtext</bb> 
</root>

于是只能自己写一个美化XML的方法。

我们首先研究一下ElementTree模块中的Element类,使用getroot方法返回的便是Element类。

该类中有四个属性tag、attrib、text与tail, 对应在XML中如下图所示:

Python使用ElementTree美化XML格式的操作

整个XML就是一个Element,里面嵌套了很多子Element。

Element可以使用for循环迭代。

通过在text和tail中增加换行和制表符,就可以实现美化XML的目的。

美化代码如下:

def prettyXml(element, indent, newline, level = 0): # elemnt为传进来的Elment类,参数indent用于缩进,newline用于换行 
  if element: # 判断element是否有子元素 
    if element.text == None or element.text.isspace(): # 如果element的text没有内容 
      element.text = newline + indent * (level + 1)  
    else: 
      element.text = newline + indent * (level + 1) + element.text.strip() + newline + indent * (level + 1) 
  #else: # 此处两行如果把注释去掉,Element的text也会另起一行 
    #element.text = newline + indent * (level + 1) + element.text.strip() + newline + indent * level 
  temp = list(element) # 将elemnt转成list 
  for subelement in temp: 
    if temp.index(subelement) < (len(temp) - 1): # 如果不是list的最后一个元素,说明下一个行是同级别元素的起始,缩进应一致 
      subelement.tail = newline + indent * (level + 1) 
    else: # 如果是list的最后一个元素, 说明下一行是母元素的结束,缩进应该少一个 
      subelement.tail = newline + indent * level 
    prettyXml(subelement, indent, newline, level = level + 1) # 对子元素进行递归操作 
     
from xml.etree import ElementTree   #导入ElementTree模块 
tree = ElementTree.parse('test.xml')  #解析test.xml这个文件,该文件内容如上文 
root = tree.getroot()         #得到根元素,Element类 
prettyXml(root, '\t', '\n')      #执行美化方法 
ElementTree.dump(root)         #显示出美化后的XML内容

输出结果如下:

<root> 
  <aa> 
    aatext 
    <cc>cctext</cc> 
  </aa> 
  <bb> 
    bbtext 
    <dd> 
      ddtext 
      <ee>eetext</ee> 
    </dd> 
  </bb> 
</root>

残留问题点:

windows下的换行符是"\r\n",只需将prettyXml方法的第三个参数改为"\r\n",使用记事本打开生成的XML大部分OK。

但是XML说明与根元素开始符之间不知如何插入"\r\n".

Python使用ElementTree美化XML格式的操作

补充知识:python-xml 模块-代码生成xml 文档

一、XML 模块

什么是xml:可扩展的标记语言,标记翻译为标签,用标签来组织数据的语言,也是一种语言可以用来自定义文档结构。相比json 使用场景更加广泛,但是语法格式相比json 复杂很多

什么时候使用json:前后台交互数据时使用json

什么时候使用xml:当需要自定义文档结构时使用xml,比如java中经常用xml来作为配置文件,常见操作就是通过程序去读取配置信息,而修改增加删除,一般是交给用户来手动完成

标签的叫发:node(节点)、elment(元素)、tag(标签)

需求从conuntrys中获取所有的国家名称

==========================>countrys
<data>
  <country name="Liechtenstein">
    <rank updated="yes">2</rank>
    <year>2009</year>
    <gdppc>141100</gdppc>
    <neighbor direction="E" name="Austria" />
    <neighbor direction="W" name="Switzerland" />
  </country>
  <country name="Singapore">
    <rank updated="yes">5</rank>
    <year>2012</year>
    <gdppc>59900</gdppc>
    <neighbor direction="N" name="Malaysia" />
  </country>
  <country name="Panama">
    <rank updated="yes">69</rank>
    <year>2012</year>
    <gdppc>13600</gdppc>
    <neighbor direction="W" name="Costa Rica" />
    <neighbor direction="E" name="Colombia" />
  </country>
</data># 取别名可以用于简化书写
import xml.etree.ElementTree as ET
tree = ET.parse('countrys')
#获取根标签#第一种获取标签的方式
#全文查找
iter() 
# 获取迭代器 如果不指定参数 则迭代器迭代的是所有标签
print(root.iter())
# 获取迭代器 如果指定参数 则迭代器迭代的是所有名称匹配的标签
for e in root.iter("rank"):
  print(e)
 
#第二种获取标签的方式
#在当前标签下(所有子级标签)寻找第一个名称匹配的标签
print(root.find("rank")) #第一个名称不匹配所以返回None#第三种获取标签的方式
#在当前标签下(所有子级标签)寻找所有名称匹配的标签
print(root.findall("rank")) #[]

练习:找到新加坡中year 这个标签

#print(e.tag) #标签名称
#print(e.attrib) #属性 字典类型
#print(e.text) #文本内容import xml.etree.ElementTree as ETtree = ET.parse("countrys")
# 获取根标签
root = tree.getroot()
for e in root.iter("country"):
  if e.attrib["name"] == "Singapore":
    y = e.find("year")
    print(y.text) #2012

在程序中修改文档内容:把所有year标签的文本加1

import xml.etree.ElementTree as ETtree = ET.parse("countrys")
root = tree.getroot()
for e in root.iter("year"):
  e.text = str(int(e.text) + 1)
  
#做完修改后要将修改后的内容写入文件
tree.write('countrys')

把新加坡国家删除:

import xml.etree.ElementTree as ETtree = ET.parse("countrys")
root = tree.getroot()for e in root.findall("country"):
  print(e)
  if e.attrib["name"] == "Singapore":
    #删除时要通过被删除的父级标签来删除
    root.remove(e)tree.write('countrys')

用程序将中国信息写入文档中:

import xml.etree.ElementTree as ETtree = ET.parse("countrys")
root = tree.getroot()
#添加时也需要将要添加的数据做成一个Element
c = ET.Element("country",{"name":"china"})# 在国家下有一堆子标签
ranke = ET.Element("ranke",{"updated":"yes"})
c.append(ranke)year = ET.Element("year")
year.text = "2018"
c.append(year)#添加到root标签中
root.append(c)
tree.write("countrys")

总结:一般不会通过程序 去修改 删除 和添加

什么时候应该使用XML格式:

当你需要自定文档结构时(XML最强大的地方就是结构)

前后台交互不应该使用,前后台交互应该使用JSON格式

代码生成XML文档

import xml.etree.ElementTree as ET# 创建根标签
root = ET.Element("root")
root.text = "这是一个XML文档!"c = ET.Element("country",{"name":"china"})
root.append(c)tree = ET.ElementTree(root)
# 参数: 文件名称 编码方式 是否需要文档声明
tree.write("new.xml",encoding="utf-8",xml_declaration=True)=========================>new.xml 内容为
<?xml version='1.0' encoding='utf-8'?>
<root>这是一个XML文档!<country name="china" /></root>

以上这篇Python使用ElementTree美化XML格式的操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python模拟新浪微博登陆功能(新浪微博爬虫)
Dec 24 Python
win10系统中安装scrapy-1.1
Jul 03 Python
Python 基于Twisted框架的文件夹网络传输源码
Aug 28 Python
Python实现的摇骰子猜大小功能小游戏示例
Dec 18 Python
numpy向空的二维数组中添加元素的方法
Nov 01 Python
Python爬取智联招聘数据分析师岗位相关信息的方法
Aug 13 Python
Django框架 querySet功能解析
Sep 04 Python
Python网络编程之使用TCP方式传输文件操作示例
Nov 01 Python
使用Python完成15位18位身份证的互转功能
Nov 06 Python
python3爬虫中异步协程的用法
Jul 10 Python
python3中TQDM库安装及使用详解
Nov 18 Python
Python plt 利用subplot 实现在一张画布同时画多张图
Feb 26 Python
Python使用requests xpath 并开启多线程爬取西刺代理ip实例
Mar 06 #Python
Python 批量读取文件中指定字符的实现
Mar 06 #Python
python GUI库图形界面开发之PyQt5布局控件QGridLayout详细使用方法与实例
Mar 06 #Python
python3 xpath和requests应用详解
Mar 06 #Python
python 装饰器功能与用法案例详解
Mar 06 #Python
python GUI库图形界面开发之PyQt5布局控件QVBoxLayout详细使用方法与实例
Mar 06 #Python
利用 Python ElementTree 生成 xml的实例
Mar 06 #Python
You might like
php curl的深入解析
2013/06/02 PHP
PHP获取MySql新增记录ID值的3种方法
2014/06/24 PHP
php自定义urlencode,urldecode函数实例
2015/03/24 PHP
PHPMailer使用QQ邮箱实现邮件发送功能
2017/08/18 PHP
php微信扫码支付 php公众号支付
2019/03/24 PHP
PHP下载文件函数与用法示例
2019/09/27 PHP
JavaScript取得鼠标绝对位置程序代码介绍
2012/09/16 Javascript
JS实现图片翻书效果示例代码
2013/09/09 Javascript
jquery中的ajax方法怎样通过JSONP进行远程调用
2014/05/04 Javascript
JQ技术实现注册页面带有校验密码强度
2015/07/27 Javascript
学习JavaScript设计模式(接口)
2015/11/26 Javascript
JS区分浏览器页面是刷新还是关闭
2016/04/17 Javascript
D3.js实现直方图的方法详解
2016/09/25 Javascript
WEB前端实现裁剪上传图片功能
2016/10/17 Javascript
node.js利用mongoose获取mongodb数据的格式化问题详解
2017/10/06 Javascript
学习Vue组件实例
2018/04/28 Javascript
Node.js 使用jade模板引擎的示例
2018/05/11 Javascript
详解微信小程序的 request 封装示例
2018/08/21 Javascript
jQuery实现的淡入淡出图片轮播效果示例
2018/08/29 jQuery
vue动态禁用控件绑定disable的例子
2019/10/28 Javascript
结合axios对项目中的api请求进行封装操作
2020/09/21 Javascript
[06:33]DOTA2亚洲邀请赛小组赛第二日 TOP10精彩集锦
2015/01/31 DOTA
Python单元测试框架unittest简明使用实例
2015/04/13 Python
使用Python编写简单的端口扫描器的实例分享
2015/12/18 Python
python安装与使用redis的方法
2016/04/19 Python
解决Spyder中图片显示太小的问题
2018/04/27 Python
Python中IP地址处理IPy模块的方法
2019/08/16 Python
python Jupyter运行时间实例过程解析
2019/12/13 Python
python实现提取COCO,VOC数据集中特定的类
2020/03/10 Python
详解Python 最短匹配模式
2020/07/29 Python
Django搭建项目实战与避坑细节详解
2020/12/06 Python
英国家用电器购物网站:Hughes
2018/02/23 全球购物
俄罗斯美容和健康网上商店:Созвездие Красоты
2019/07/23 全球购物
火山动力Java笔试题
2014/06/26 面试题
婚纱店策划方案
2014/05/22 职场文书
导游词之秦始皇兵马俑博物馆
2019/09/29 职场文书