Python爬虫基于lxml解决数据编码乱码问题


Posted in Python onJuly 31, 2020

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高

XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索

XPath的选择功能十分强大,它提供了非常简明的路径选择表达式,另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有我们想要定位的节点,都可以用XPath来选择

XPath于1999年11月16日成为W3C标准,它被设计为供XSLT、XPointer以及其他XML解析软件使用,更多的文档可以访问其官方网站:https://www.w3.org/TR/xpath/

问题状况:

response = requests.get(url=url, headers=headers).text
html = etree.HTML(response)
name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0]
print(name)

可以正常获取数据,但是结果是

已验证 安全 盾牌

这样子的乱码

解决方法:

name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0].encode('ISO-8859-1').decode('UTF-8')

这边的UTF-8根据网页编码情况而定

看网页编码情况

F12

Python爬虫基于lxml解决数据编码乱码问题

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Mac下Supervisor进程监控管理工具的安装与配置
Dec 16 Python
python实现支持目录FTP上传下载文件的方法
Jun 03 Python
Python正则表达式教程之二:捕获篇
Mar 02 Python
python爬虫_微信公众号推送信息爬取的实例
Oct 23 Python
python爬虫之验证码篇3-滑动验证码识别技术
Apr 11 Python
Django中create和save方法的不同
Aug 13 Python
Python 经典算法100及解析(小结)
Sep 13 Python
python绘制BA无标度网络示例代码
Nov 21 Python
django 框架实现的用户注册、登录、退出功能示例
Nov 28 Python
python numpy--数组的组合和分割实例
Feb 24 Python
Python爬虫爬取杭州24时温度并展示操作示例
Mar 27 Python
哪种Python框架适合你?简单介绍几种主流Python框架
Aug 04 Python
Python如何定义有可选参数的元类
Jul 31 #Python
Python爬虫爬取糗事百科段子实例分享
Jul 31 #Python
Python如何对齐字符串
Jul 30 #Python
Python3爬虫关于代理池的维护详解
Jul 30 #Python
Python读写压缩文件的方法
Jul 30 #Python
Python3爬虫里关于代理的设置总结
Jul 30 #Python
Python 如何创建一个简单的REST接口
Jul 30 #Python
You might like
PHP也可以?成Shell Script
2006/10/09 PHP
php调用mysql存储过程
2007/02/14 PHP
JavaScript 字符编码规则
2009/05/04 Javascript
jQuery右键菜单contextMenu使用实例
2011/09/28 Javascript
让页面上两个div中的滚动条(滑块)同步运动示例
2013/08/07 Javascript
js键盘上下左右键怎么触发function(实例讲解)
2013/12/14 Javascript
js操作table元素实现表格行列新增、删除技巧总结
2015/11/18 Javascript
jquery仿QQ登录账号选择下拉框效果
2016/03/22 Javascript
BootStrap智能表单demo示例详解
2016/06/13 Javascript
Extjs 点击复选框在表格中增加相关信息行
2016/07/12 Javascript
Bootstrap文件上传组件之bootstrap fileinput
2016/11/25 Javascript
详解Bootstrap各式各样的按钮(推荐)
2016/12/13 Javascript
js简易版购物车功能
2017/06/17 Javascript
ES6 javascript的异步操作实例详解
2017/10/30 Javascript
js实现一个页面多个倒计时的3种方法
2019/02/25 Javascript
vue elementUI使用tabs与导航栏联动
2019/06/21 Javascript
ZK中使用JS读取客户端txt文件内容问题
2019/11/07 Javascript
[03:17]史诗级大片应援2018DOTA2国际邀请赛 致敬每一位坚守遗迹的勇士
2018/07/20 DOTA
python 图片验证码代码分享
2012/07/04 Python
Python编写屏幕截图程序方法
2015/02/18 Python
使用Python脚本和ADB命令实现卸载App
2017/02/10 Python
pandas读取csv文件,分隔符参数sep的实例
2018/12/12 Python
python爬虫基础教程:requests库(二)代码实例
2019/04/09 Python
谈一谈基于python的面向对象编程基础
2019/05/21 Python
numpy按列连接两个维数不同的数组方式
2019/12/06 Python
python如何查看网页代码
2020/06/07 Python
Farfetch香港官网:汇集全球时尚奢侈品购物平台
2017/11/26 全球购物
New Balance加拿大官方网站:运动鞋和健身服装
2018/11/19 全球购物
美国小蜜蜂Burt’s Bees德国官网:天然唇部、皮肤和身体护理产品
2020/06/14 全球购物
建筑工程管理专业自荐信范文
2013/12/28 职场文书
挂牌仪式主持词
2014/03/20 职场文书
班训口号大全
2014/06/18 职场文书
个人年终总结结尾
2015/03/06 职场文书
2015庆祝七一建党节94周年活动总结
2015/03/20 职场文书
Java用自带的Image IO给图片添加水印
2021/06/15 Java/Android
Python爬虫中urllib3与urllib的区别是什么
2021/07/21 Python