python操作xml文件示例


Posted in Python onApril 07, 2014
def get_seed_data(filename):
dom = minidom.parse(filename)
root = dom.documentElement
system_nodes = root.getElementsByTagName("system")
k = 0
seed_list = []
for system_node in system_nodes:
    #print system_node.nodeName+' id='+system_node.getAttribute('id')
    system_id = system_node.getAttribute("id")
    system_name = system_node.getAttribute("name")
    #print 'system_name:%s'%system_name
    section_nodes = system_node.getElementsByTagName("section")
    for section_node in section_nodes:
            section_id = section_node.getAttribute('id')
            section_name = section_node.getAttribute('name')
            #print ' '+section_node.nodeName+' id='+section_id+' name='+section_name
            crawl_cycle_node = section_node.getElementsByTagName("crawl_cycle")
            crawl_cycle = crawl_cycle_node[0].childNodes[0].nodeValue
            #print '  '+crawl_cycle_node[0].nodeName+'='+crawl_cycle
            seed_nodes = section_node.getElementsByTagName('seed')
            for seed_node in seed_nodes:
                seed = {}
                seed['crawl_cycle'] = crawl_cycle
                seed['system_id'] = int(system_id)
                seed['system_name'] = system_name
                seed['section_id'] = int(section_id)
                seed['section_name'] = section_name
                seed_id = seed_node.getAttribute('id')
                seed['seed_id'] = int(seed_id)
                #print '  '+seed_node.nodeName+' '+'id='+seed_id
                userblog_url_node = seed_node.getElementsByTagName('userblog_url')
                userblog_url = userblog_url_node[0].childNodes[0].nodeValue
                seed['userblog_url'] = userblog_url
                #print '   '+'userblog_url'+' '+userblog_url
                print '-------------------------------------------'
                print 'system_id:%d' % seed['system_id']
                print 'system_name:%s'%seed['system_name']
                print ' section_id:%d' % seed['section_id']
                print ' section_name:%s' % seed['section_name']
                print '  seed_id:%d' %seed['seed_id']
                print '  userblog_url:%s' %seed['userblog_url']
                print '========================='
                seed_list.append(seed)
                print seed_list[k]
                k += 1
                os.system('pause')
return seed_list
<?xml version="1.0" encoding="utf-8" ?>
<seeds>
 <system id="1" name="新浪">
  <section id="1" name="娱乐">
   <crawl_cycle> </crawl_cycle>
   <seed id="1">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="2">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="3">
    <userblog_url>http://aaa.com.cn/sanxiazaixian</userblog_url>
   </seed>
  </section>
  <section id="2" name="读书">
   <crawl_cycle> </crawl_cycle>
   <seed id="11">
    <userblog_url>http://aaa.com.cn/twocold</userblog_url>
   </seed>
   <seed id="12">
    <userblog_url>http://aaa.com.cn/u/1233526741</userblog_url>
   </seed>
  </section>
 </system>
</seeds>
Python 相关文章推荐
跟老齐学Python之玩转字符串(2)更新篇
Sep 28 Python
python常用知识梳理(必看篇)
Mar 23 Python
在Python中增加和插入元素的示例
Nov 01 Python
在Python中如何传递任意数量的实参的示例代码
Mar 21 Python
python实现基于朴素贝叶斯的垃圾分类算法
Jul 09 Python
python多线程+代理池爬取天天基金网、股票数据过程解析
Aug 13 Python
python实现简易学生信息管理系统
Apr 05 Python
tensorflow模型继续训练 fineturn实例
Jan 21 Python
Python post请求实现代码实例
Feb 28 Python
python传到前端的数据,双引号被转义的问题
Apr 03 Python
Python基于tkinter canvas实现图片裁剪功能
Nov 05 Python
Python 语言实现六大查找算法
Jun 30 Python
python生成随机验证码(中文验证码)示例
Apr 03 #Python
python读取html中指定元素生成excle文件示例
Apr 03 #Python
python实现zencart产品数据导入到magento(python导入数据)
Apr 03 #Python
python模拟登陆阿里妈妈生成商品推广链接
Apr 03 #Python
python多线程抓取天涯帖子内容示例
Apr 03 #Python
python局域网ip扫描示例分享
Apr 03 #Python
python实现数通设备tftp备份配置文件示例
Apr 02 #Python
You might like
一个用php3编写的简单计数器
2006/10/09 PHP
PHP下通过QRCode类库创建中间带网站LOGO的二维码
2014/07/12 PHP
php针对cookie操作的队列操作类实例
2014/12/10 PHP
PHP文件生成的图片无法使用CDN缓存的解决方法
2015/06/20 PHP
PHP的Yii框架中Model模型的学习教程
2016/03/29 PHP
微信公众号判断用户是否已关注php代码解析
2016/06/24 PHP
php将服务端的文件读出来显示在web页面实例
2016/10/31 PHP
php正则去除网页中所有的html,js,css,注释的实现方法
2016/11/03 PHP
PHP自定义多进制的方法
2016/11/03 PHP
通过DOM脚本去设置样式信息
2010/09/19 Javascript
jQuery的live()方法对hover事件的处理示例
2014/02/27 Javascript
jquery动态改变div宽度和高度
2015/02/09 Javascript
js实现兼容IE和FF的上下层的移动
2015/05/04 Javascript
js生成word中图片处理方法
2018/01/06 Javascript
AngularJS创建一个上传照片的指令实例代码
2018/02/24 Javascript
nodejs 使用http进行post或get请求的实例(携带cookie)
2019/01/03 NodeJs
js form表单input框限制20个字符,10个汉字代码实例
2019/04/12 Javascript
node删除、复制文件或文件夹示例代码
2019/08/13 Javascript
Vue实现push数组并删除的例子
2019/11/01 Javascript
[00:31]DOTA2上海特级锦标赛 Fnatic战队宣传片
2016/03/04 DOTA
玩转python爬虫之正则表达式
2016/02/17 Python
python利用正则表达式搜索单词示例代码
2017/09/24 Python
Python调用C++,通过Pybind11制作Python接口
2018/10/16 Python
pyspark给dataframe增加新的一列的实现示例
2020/04/24 Python
Python selenium键盘鼠标事件实现过程详解
2020/07/28 Python
CSS3 3D位移translate效果实例介绍
2016/05/03 HTML / CSS
澳大利亚在线生活方式商店:Mytopia
2018/07/08 全球购物
买卖正宗运动鞋:GOAT
2019/12/06 全球购物
JRE、JDK、JVM之间的关系怎样
2012/05/16 面试题
十佳少年事迹材料
2014/12/25 职场文书
吴仁宝观后感
2015/06/09 职场文书
《走遍天下书为侣》教学反思
2016/02/22 职场文书
2019年最新证婚词精选集!
2019/06/28 职场文书
python迷宫问题深度优先遍历实例
2021/06/20 Python
Mysql中有关Datetime和Timestamp的使用总结
2021/12/06 MySQL
victoriaMetrics库布隆过滤器初始化及使用详解
2022/04/05 Golang