Python lxml解析HTML并用xpath获取元素的方法


Posted in Python onJanuary 02, 2019

代码

使用方法见注释

#-*- coding: UTF-8 -*-

from lxml import etree

source = u'''
<div><p class="p1" data-a="1">测试数据1</p>
<p class="p1" data-a="2">测试数据2</p>
<p class="p1" data-a="3" style="height:100px;">
<strong class="s">测试数据3</strong></p>
<p class="p1" data-a="4" width="200"><img src="1.jpg" class="img"/><br/>
图片</p>
'''

# 从字符串解析
page = etree.HTML(source)

# 元素列表
ps = page.xpath("//p")
for p in ps:
  print u"属性:%s" % p.attrib
  print u"文本:%s" % p.text

# 文本列表
ts = page.xpath("//p/text()")
for t in ts:
  print t

# xpath定位 
ls = page.xpath('//p[@class="p1"][last()]/img')
for l in ls:
  print l.attrib

以上这篇Python lxml解析HTML并用xpath获取元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python struct.unpack
Sep 06 Python
Python中的ConfigParser模块使用详解
May 04 Python
Anaconda2 5.2.0安装使用图文教程
Sep 19 Python
树莓派实现移动拍照
Jun 22 Python
Django REST framework 视图和路由详解
Jul 19 Python
PyQt 图解Qt Designer工具的使用方法
Aug 06 Python
Python抓新型冠状病毒肺炎疫情数据并绘制全国疫情分布的代码实例
Feb 05 Python
python剪切视频与合并视频的实现
Mar 03 Python
打印tensorflow恢复模型中所有变量与操作节点方式
May 26 Python
python实现学生成绩测评系统
Jun 22 Python
Python Spyder 调出缩进对齐线的操作
Feb 26 Python
pandas:get_dummies()与pd.factorize()的用法及区别说明
May 21 Python
用xpath获取指定标签下的所有text的实例
Jan 02 #Python
在python中获取div的文本内容并和想定结果进行对比详解
Jan 02 #Python
python的xpath获取div标签内html内容,实现innerhtml功能的方法
Jan 02 #Python
python后端接收前端回传的文件方法
Jan 02 #Python
python requests.post带head和body的实例
Jan 02 #Python
python批量获取html内body内容的实例
Jan 02 #Python
如何在django里上传csv文件并进行入库处理的方法
Jan 02 #Python
You might like
一篇不错的PHP基础学习笔记
2007/03/18 PHP
真正的ZIP文件操作类(php)
2007/07/21 PHP
php教程 插件机制在PHP中实现方案
2012/11/02 PHP
解析php中获取系统信息的方法
2013/06/25 PHP
php 解压rar文件及zip文件的方法
2014/05/05 PHP
关于php中的json_encode()和json_decode()函数的一些说明
2016/11/20 PHP
浅谈php中curl、fsockopen的应用
2016/12/10 PHP
Ajax中的JSON格式与php传输过程全面解析
2017/11/14 PHP
PHP迭代器接口Iterator用法分析
2017/12/28 PHP
php在windows环境下获得cpu内存实时使用率(推荐)
2018/02/08 PHP
php时间戳转换代码详解
2019/08/04 PHP
驱动事件的addEvent.js代码
2007/03/27 Javascript
JQuery模板插件 jquery.tmpl 动态ajax扩展
2011/11/10 Javascript
Js与下拉列表处理问题解决
2014/02/13 Javascript
js字符串日期yyyy-MM-dd转化为date示例代码
2014/03/06 Javascript
举例详解AngularJS中ngShow和ngHide的使用方法
2015/06/19 Javascript
Jquery easyui开启行编辑模式增删改操作
2016/01/14 Javascript
RGB和YUV 多媒体编程基础详细介绍
2016/11/04 Javascript
Angular实现的敏感文字自动过滤与提示功能示例
2017/12/29 Javascript
JavaScript实现京东购物放大镜和选项卡效果的方法分析
2018/07/05 Javascript
JS Thunk 函数的含义和用法实例总结
2020/04/08 Javascript
基于javascript实现日历功能原理及代码实例
2020/05/07 Javascript
python列表与元组详解实例
2013/11/01 Python
对pandas中Series的map函数详解
2018/07/25 Python
python读取图片任意范围区域
2019/01/23 Python
Python 的字典(Dict)是如何存储的
2019/07/05 Python
使用TensorFlow实现简单线性回归模型
2019/07/19 Python
如何清空python的变量
2020/07/05 Python
css3实现3D文本悬停改变效果的示例代码
2019/01/16 HTML / CSS
html5本地存储 localStorage操作使用详解
2016/09/20 HTML / CSS
自考毕业自我鉴定范文
2013/10/27 职场文书
写自荐信三大法宝
2014/01/24 职场文书
美德好少年主要事迹
2014/01/29 职场文书
领班岗位职责范文
2014/02/06 职场文书
医院领导班子查摆问题对照检查材料思想汇报
2014/10/08 职场文书
小学生节约用水倡议书
2019/08/12 职场文书