编程 Python

Python 解析简单的XML数据

Posted in Python onJuly 24, 2020

问题

你想从一个简单的XML文档中提取数据。

解决方案

可以使用 xml.etree.ElementTree 模块从简单的XML文档中提取数据。为了演示，假设你想解析Planet Python上的RSS源。下面是相应的代码：

from urllib.request import urlopen
from xml.etree.ElementTree import parse

# Download the RSS feed and parse it
u = urlopen('http://planet.python.org/rss20.xml')
doc = parse(u)

# Extract and output tags of interest
for item in doc.iterfind('channel/item'):
  title = item.findtext('title')
  date = item.findtext('pubDate')
  link = item.findtext('link')

  print(title)
  print(date)
  print(link)
  print()

运行上面的代码，输出结果类似这样：

Steve Holden: Python for Data Analysis
Mon, 19 Nov 2012 02:13:51 +0000
http://holdenweb.blogspot.com/2012/11/python-for-data-analysis.html

Vasudev Ram: The Python Data model (for v2 and v3)
Sun, 18 Nov 2012 22:06:47 +0000
http://jugad2.blogspot.com/2012/11/the-python-data-model.html

Python Diary: Been playing around with Object Databases
Sun, 18 Nov 2012 20:40:29 +0000
http://www.pythondiary.com/blog/Nov.18,2012/been-...-object-databases.html

Vasudev Ram: Wakari, Scientific Python in the cloud
Sun, 18 Nov 2012 20:19:41 +0000
http://jugad2.blogspot.com/2012/11/wakari-scientific-python-in-cloud.html

Jesse Jiryu Davis: Toro: synchronization primitives for Tornado coroutines
Sun, 18 Nov 2012 20:17:49 +0000
http://feedproxy.google.com/~r/EmptysquarePython/~3/_DOZT2Kd0hQ/

很显然，如果你想做进一步的处理，你需要替换 print() 语句来完成其他有趣的事。

讨论

在很多应用程序中处理XML编码格式的数据是很常见的。不仅是因为XML在Internet上面已经被广泛应用于数据交换，同时它也是一种存储应用程序数据的常用格式(比如字处理，音乐库等)。接下来的讨论会先假定读者已经对XML基础比较熟悉了。

在很多情况下，当使用XML来仅仅存储数据的时候，对应的文档结构非常紧凑并且直观。例如，上面例子中的RSS订阅源类似于下面的格式：

<?xml version="1.0"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/">
  <channel>
    <title>Planet Python</title>
    <link>http://planet.python.org/</link>
    <language>en</language>
    <description>Planet Python - http://planet.python.org/</description>
    <item>
      <title>Steve Holden: Python for Data Analysis</title>
      <guid>http://holdenweb.blogspot.com/...-data-analysis.html</guid>
      <link>http://holdenweb.blogspot.com/...-data-analysis.html</link>
      <description>...</description>
      <pubDate>Mon, 19 Nov 2012 02:13:51 +0000</pubDate>
    </item>
    <item>
      <title>Vasudev Ram: The Python Data model (for v2 and v3)</title>
      <guid>http://jugad2.blogspot.com/...-data-model.html</guid>
      <link>http://jugad2.blogspot.com/...-data-model.html</link>
      <description>...</description>
      <pubDate>Sun, 18 Nov 2012 22:06:47 +0000</pubDate>
    </item>
    <item>
      <title>Python Diary: Been playing around with Object Databases</title>
      <guid>http://www.pythondiary.com/...-object-databases.html</guid>
      <link>http://www.pythondiary.com/...-object-databases.html</link>
      <description>...</description>
      <pubDate>Sun, 18 Nov 2012 20:40:29 +0000</pubDate>
    </item>
    ...
  </channel>
</rss>

xml.etree.ElementTree.parse() 函数解析整个XML文档并将其转换成一个文档对象。然后，你就能使用 find() 、iterfind() 和 findtext() 等方法来搜索特定的XML元素了。这些函数的参数就是某个指定的标签名，例如 channel/item 或 title 。每次指定某个标签时，你需要遍历整个文档结构。每次搜索操作会从一个起始元素开始进行。同样，每次操作所指定的标签名也是起始元素的相对路径。例如，执行 doc.iterfind('channel/item') 来搜索所有在 channel 元素下面的 item 元素。 doc 代表文档的最顶层(也就是第一级的 rss 元素)。然后接下来的调用 item.findtext() 会从已找到的 item 元素位置开始搜索。 ElementTree 模块中的每个元素有一些重要的属性和方法，在解析的时候非常有用。 tag 属性包含了标签的名字，text 属性包含了内部的文本，而 get() 方法能获取属性值。例如：

>>> doc
<xml.etree.ElementTree.ElementTree object at 0x101339510>
>>> e = doc.find('channel/title')
>>> e
<Element 'title' at 0x10135b310>
>>> e.tag
'title'
>>> e.text
'Planet Python'
>>> e.get('some_attribute')
>>>

有一点要强调的是 xml.etree.ElementTree 并不是XML解析的唯一方法。对于更高级的应用程序，你需要考虑使用 lxml 。它使用了和ElementTree同样的编程接口，因此上面的例子同样也适用于lxml。你只需要将刚开始的import语句换成 from lxml.etree import parse 就行了。lxml 完全遵循XML标准，并且速度也非常快，同时还支持验证，XSLT和XPath等特性。

以上就是Python 解析简单的XML数据的详细内容，更多关于Python 解析XML的资料请关注三水点靠木其它相关文章！

Python 解析简单的XML数据

- Author -

看云

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中static相关知识小结

Jan 02 Python

Python使用matplotlib绘制随机漫步图

Aug 27 Python

Scrapy-Redis结合POST请求获取数据的方法示例

May 07 Python

python变量的存储原理详解

Jul 10 Python

在Python函数中输入任意数量参数的实例

Jul 16 Python

利用python计算windows全盘文件md5值的脚本

Jul 27 Python

Django获取该数据的上一条和下一条方法

Aug 12 Python

Python hashlib加密模块常用方法解析

Dec 18 Python

Django实现whoosh搜索引擎使用jieba分词

Apr 08 Python

解决pyqt5异常退出无提示信息的问题

Apr 08 Python

Python+Xlwings 删除Excel的行和列

Dec 19 Python

Python 多线程处理任务实例

Nov 07 Python

深入了解NumPy 高级索引

Jul 24 #Python

python实现学生管理系统开发

Jul 24 #Python

浅析Python 多行匹配模式

Jul 24 #Python

Python图像处理二值化方法实例汇总

Jul 24 #Python

Python如何合并多个字典或映射

Jul 24 #Python

Matplotlib 绘制饼图解决文字重叠的方法

Jul 24 #Python

Python3.7安装pyaudio教程解析

Jul 24 #Python

You might like

全国FM电台频率大全 - 17 湖北省

2020/03/11 无线电

Windows IIS PHP 5.2 安装与配置方法

2009/06/08 PHP

解析php中如何调用用户自定义函数

2013/08/06 PHP

ThinkPHP无限级分类原理实现留言与回复功能实例

2014/10/31 PHP

PHP版微信第三方实现一键登录及获取用户信息的方法

2016/10/14 PHP

PHP使用JpGraph绘制折线图操作示例【附源码下载】

2019/10/18 PHP

JavaScript 匿名函数（anonymous function）与闭包（closure）

2011/10/04 Javascript

ASP.NET jQuery 实例17 通过使用jQuery validation插件校验ListBox

2012/02/03 Javascript

JavaScript实现三阶幻方算法谜题解答

2014/12/29 Javascript

jQuery检测鼠标左键和右键点击的方法

2015/03/17 Javascript

基于javascript html5实现3D翻书特效

2016/03/14 Javascript

BootStrap日期控件在模态框中选择时间下拉菜单无效的原因及解决办法(火狐下不能点击)

2016/08/18 Javascript

jQuery图片前后对比插件beforeAfter用法示例【附demo源码下载】

2016/09/20 Javascript

JavaScript之排序函数_动力节点Java学院整理

2017/06/30 Javascript

vue 引用自定义ttf、otf、在线字体的方法

2019/05/09 Javascript

微信头像地址失效踩坑记附带解决方案

2019/09/23 Javascript

js基于canvas实现时钟组件

2021/02/07 Javascript

[02:01]大师之路——DOTA2完美大师赛11月论剑上海

2017/11/06 DOTA

python存储16bit和32bit图像的实例

2018/12/05 Python

Python3爬虫之urllib携带cookie爬取网页的方法

2018/12/28 Python

Python调用服务接口的实例

2019/01/03 Python

python实现远程控制电脑

2019/05/23 Python

python 批量添加的button 使用同一点击事件的方法

2019/07/17 Python

python函数装饰器之带参数的函数和带参数的装饰器用法示例

2019/11/06 Python

Python实现使用dir获取类的方法列表

2019/12/24 Python

Python实现验证码识别

2020/06/15 Python

2021年值得向Python开发者推荐的VS Code扩展插件

2021/01/25 Python

Booking.com美国：全球酒店预订网站

2017/04/18 全球购物

美国和加拿大计算机和电子产品购物网站：TigerDirect.com

2019/09/13 全球购物

酒店工作职员求职简历的自我评价

2013/10/23 职场文书

学历公证书范本

2014/04/09 职场文书

活动策划求职信模板

2014/04/21 职场文书

计算机专业毕业生自荐书

2014/06/02 职场文书

SQL Server——索引+基于单表的数据插入与简单查询【1】

2021/04/05 SQL Server

Python面向对象编程之类的概念

2021/11/01 Python

Java8 Stream API 提供了一种高效且易于使用的处理数据的方式

2022/04/13 Java/Android