Python爬虫基于lxml解决数据编码乱码问题


Posted in Python onJuly 31, 2020

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高

XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索

XPath的选择功能十分强大,它提供了非常简明的路径选择表达式,另外,它还提供了超过100个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有我们想要定位的节点,都可以用XPath来选择

XPath于1999年11月16日成为W3C标准,它被设计为供XSLT、XPointer以及其他XML解析软件使用,更多的文档可以访问其官方网站:https://www.w3.org/TR/xpath/

问题状况:

response = requests.get(url=url, headers=headers).text
html = etree.HTML(response)
name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0]
print(name)

可以正常获取数据,但是结果是

已验证 安全 盾牌

这样子的乱码

解决方法:

name = html.xpath("/html/body/div[2]/ul/li[1]/a/p/text()")[0].encode('ISO-8859-1').decode('UTF-8')

这边的UTF-8根据网页编码情况而定

看网页编码情况

F12

Python爬虫基于lxml解决数据编码乱码问题

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python多线程和队列操作实例
Jun 21 Python
在Python的while循环中使用else以及循环嵌套的用法
Oct 14 Python
Python中第三方库Requests库的高级用法详解
Mar 12 Python
django使用图片延时加载引起后台404错误
Apr 18 Python
Python 操作文件的基本方法总结
Aug 10 Python
python微信跳一跳游戏辅助代码解析
Jan 29 Python
使用python3+xlrd解析Excel的实例
May 04 Python
python实现超市扫码仪计费
May 30 Python
Selenium chrome配置代理Python版的方法
Nov 29 Python
python3.7将代码打包成exe程序并添加图标的方法
Oct 11 Python
在TensorFlow中屏蔽warning的方式
Feb 04 Python
详解matplotlib中pyplot和面向对象两种绘图模式之间的关系
Jan 22 Python
Python如何定义有可选参数的元类
Jul 31 #Python
Python爬虫爬取糗事百科段子实例分享
Jul 31 #Python
Python如何对齐字符串
Jul 30 #Python
Python3爬虫关于代理池的维护详解
Jul 30 #Python
Python读写压缩文件的方法
Jul 30 #Python
Python3爬虫里关于代理的设置总结
Jul 30 #Python
Python 如何创建一个简单的REST接口
Jul 30 #Python
You might like
[EPIC] Larva vs Flash ZvT @ Crossing Field [2017-10-09]
2020/03/17 星际争霸
操作Oracle的php类
2006/10/09 PHP
PHP配置心得包含MYSQL5乱码解决
2006/11/20 PHP
使用PHP数组实现无限分类,不使用数据库,不使用递归.
2006/12/09 PHP
深入了解PHP中的Array数组和foreach
2016/11/06 PHP
thinkPHP3.2.3结合Laypage实现的分页功能示例
2018/05/28 PHP
php将从数据库中获得的数据转换成json格式并输出的方法
2018/08/21 PHP
解决laravel groupBy 对查询结果进行分组出现的问题
2019/10/09 PHP
基于JQuery实现相同内容合并单元格的代码
2011/01/12 Javascript
jQuery写fadeTo示例代码
2014/02/21 Javascript
jQuery实现渐变下拉菜单的简单方法
2015/03/11 Javascript
js实现鼠标滑过文字链接色彩变化的效果
2015/05/06 Javascript
基于jQuery实现带动画效果超炫酷的弹出对话框(附源码下载)
2016/02/22 Javascript
jquery对所有input type=text的控件赋值实现方法
2016/12/02 Javascript
javascript自执行函数
2017/02/10 Javascript
浅谈js中的变量名和函数名重名
2017/02/13 Javascript
Vue的轮播图组件实现方法
2018/03/03 Javascript
js实现3D照片墙效果
2019/10/28 Javascript
linux 下以二进制的方式安装 nodejs
2020/02/12 NodeJs
Vue 封装防刷新考试倒计时组件的实现
2020/06/05 Javascript
详解Python中的日志模块logging
2015/06/19 Python
Python下Fabric的简单部署方法
2015/07/14 Python
Python操作MySQL数据库的方法
2018/06/20 Python
解决python线程卡死的问题
2019/02/18 Python
利用python numpy+matplotlib绘制股票k线图的方法
2019/06/26 Python
python异步编程 使用yield from过程解析
2019/09/25 Python
Tensorflow训练MNIST手写数字识别模型
2020/02/13 Python
matplotlib 画双轴子图无法显示x轴的解决方法
2020/07/27 Python
Spartoo英国:欧洲最大的网上鞋店
2016/09/13 全球购物
为数据库创建索引都需要注意些什么
2012/07/17 面试题
《母亲的恩情》教学反思
2014/02/13 职场文书
双语教学实施方案
2014/03/23 职场文书
关于保护环境的建议书
2014/05/13 职场文书
大学生简短的自我评价
2014/09/12 职场文书
小学语文复习计划
2015/01/19 职场文书
2015年人力资源部工作总结
2015/04/30 职场文书