python操作xml文件示例


Posted in Python onApril 07, 2014
def get_seed_data(filename):
dom = minidom.parse(filename)
root = dom.documentElement
system_nodes = root.getElementsByTagName("system")
k = 0
seed_list = []
for system_node in system_nodes:
    #print system_node.nodeName+' id='+system_node.getAttribute('id')
    system_id = system_node.getAttribute("id")
    system_name = system_node.getAttribute("name")
    #print 'system_name:%s'%system_name
    section_nodes = system_node.getElementsByTagName("section")
    for section_node in section_nodes:
            section_id = section_node.getAttribute('id')
            section_name = section_node.getAttribute('name')
            #print ' '+section_node.nodeName+' id='+section_id+' name='+section_name
            crawl_cycle_node = section_node.getElementsByTagName("crawl_cycle")
            crawl_cycle = crawl_cycle_node[0].childNodes[0].nodeValue
            #print '  '+crawl_cycle_node[0].nodeName+'='+crawl_cycle
            seed_nodes = section_node.getElementsByTagName('seed')
            for seed_node in seed_nodes:
                seed = {}
                seed['crawl_cycle'] = crawl_cycle
                seed['system_id'] = int(system_id)
                seed['system_name'] = system_name
                seed['section_id'] = int(section_id)
                seed['section_name'] = section_name
                seed_id = seed_node.getAttribute('id')
                seed['seed_id'] = int(seed_id)
                #print '  '+seed_node.nodeName+' '+'id='+seed_id
                userblog_url_node = seed_node.getElementsByTagName('userblog_url')
                userblog_url = userblog_url_node[0].childNodes[0].nodeValue
                seed['userblog_url'] = userblog_url
                #print '   '+'userblog_url'+' '+userblog_url
                print '-------------------------------------------'
                print 'system_id:%d' % seed['system_id']
                print 'system_name:%s'%seed['system_name']
                print ' section_id:%d' % seed['section_id']
                print ' section_name:%s' % seed['section_name']
                print '  seed_id:%d' %seed['seed_id']
                print '  userblog_url:%s' %seed['userblog_url']
                print '========================='
                seed_list.append(seed)
                print seed_list[k]
                k += 1
                os.system('pause')
return seed_list
<?xml version="1.0" encoding="utf-8" ?>
<seeds>
 <system id="1" name="新浪">
  <section id="1" name="娱乐">
   <crawl_cycle> </crawl_cycle>
   <seed id="1">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="2">
    <userblog_url>http://aaa.com.cn/loveissuuny</userblog_url>
   </seed>
   <seed id="3">
    <userblog_url>http://aaa.com.cn/sanxiazaixian</userblog_url>
   </seed>
  </section>
  <section id="2" name="读书">
   <crawl_cycle> </crawl_cycle>
   <seed id="11">
    <userblog_url>http://aaa.com.cn/twocold</userblog_url>
   </seed>
   <seed id="12">
    <userblog_url>http://aaa.com.cn/u/1233526741</userblog_url>
   </seed>
  </section>
 </system>
</seeds>
Python 相关文章推荐
Linux下编译安装MySQL-Python教程
Feb 02 Python
对python3 urllib包与http包的使用详解
May 10 Python
python输出100以内的质数与合数实例代码
Jul 08 Python
PyCharm设置护眼背景色的方法
Oct 29 Python
Python输出\u编码将其转换成中文的实例
Dec 15 Python
Python中的pathlib.Path为什么不继承str详解
Jun 23 Python
在Python函数中输入任意数量参数的实例
Jul 16 Python
Python分割训练集和测试集的方法示例
Sep 19 Python
使用pyecharts1.7进行简单的可视化大全
May 17 Python
keras中epoch,batch,loss,val_loss用法说明
Jul 02 Python
详解如何修改python中字典的键和值
Sep 29 Python
Python图像处理库PIL详细使用说明
Apr 06 Python
python生成随机验证码(中文验证码)示例
Apr 03 #Python
python读取html中指定元素生成excle文件示例
Apr 03 #Python
python实现zencart产品数据导入到magento(python导入数据)
Apr 03 #Python
python模拟登陆阿里妈妈生成商品推广链接
Apr 03 #Python
python多线程抓取天涯帖子内容示例
Apr 03 #Python
python局域网ip扫描示例分享
Apr 03 #Python
python实现数通设备tftp备份配置文件示例
Apr 02 #Python
You might like
微信公众平台网页授权获取用户基本信息中授权回调域名设置的变动
2014/10/21 PHP
在WordPress中安装使用视频播放器插件Hana Flv Player
2016/01/04 PHP
PHP的Yii框架中Model模型的学习教程
2016/03/29 PHP
利用Homestead快速运行一个Laravel项目的方法详解
2017/11/14 PHP
详解AngularJS中的表格使用
2015/06/16 Javascript
Javascript实现前端简单的路由实例
2016/09/11 Javascript
用JavaScript和jQuery实现瀑布流
2017/03/19 Javascript
easyUI下拉列表点击事件使用方法
2017/05/18 Javascript
p5.js入门教程之图片加载
2018/03/20 Javascript
再谈Angular4 脏值检测(性能优化)
2018/04/23 Javascript
详解angular2.x创建项目入门指令
2018/10/11 Javascript
浅析微信扫码登录原理(小结)
2018/10/29 Javascript
vue 项目接口管理的实现
2019/01/17 Javascript
vue+vuex+json-seiver实现数据展示+分页功能
2019/04/11 Javascript
VueJs里利用CryptoJs实现加密及解密的方法示例
2019/04/29 Javascript
手把手15分钟搭一个企业级脚手架
2019/09/16 Javascript
JavaScript实现图片轮播特效
2019/10/23 Javascript
es6函数之严格模式用法实例分析
2020/03/17 Javascript
详解Python中__str__和__repr__方法的区别
2015/04/17 Python
详解Python发送邮件实例
2016/01/10 Python
django2+uwsgi+nginx上线部署到服务器Ubuntu16.04
2018/06/26 Python
浅谈python函数调用返回两个或多个变量的方法
2019/01/23 Python
TensorFlow卷积神经网络之使用训练好的模型识别猫狗图片
2019/03/14 Python
Python实现Restful API的例子
2019/08/31 Python
协程Python 中实现多任务耗资源最小的方式
2020/10/19 Python
Python实现小黑屋游戏的完整实例
2021/01/06 Python
HTML5学习心得总结(推荐)
2016/07/08 HTML / CSS
简述使用ftp进行文件传输时的两种登录方式?它们的区别是什么?常用的ftp文件传输命令是什么?
2016/11/20 面试题
考博自荐信
2013/10/25 职场文书
洗发露广告词
2014/03/14 职场文书
个人租房协议书
2014/04/09 职场文书
六一儿童节开幕词
2015/01/29 职场文书
营销策划分析:怎么策划才能更好销量产品?
2019/09/04 职场文书
pytorch中的model.eval()和BN层的使用
2021/05/22 Python
浅谈Redis主从复制以及主从复制原理
2021/05/29 Redis
Python PIL按比例裁剪图片
2022/05/11 Python