python中requests爬去网页内容出现乱码问题解决方法介绍


Posted in Python onOctober 25, 2017

最近在学习python爬虫,使用requests的时候遇到了不少的问题,比如说在requests中如何使用cookies进行登录验证,这可以查看这篇文章。这篇博客要解决的问题是如何避免在使用requests的时候出现乱码。

import requests  
res=requests.get("https://www.baidu.com")  
print res.content

以上就是使用requests进行简单的网页请求数据的方式。但是很容易出现乱码的问题。

我们可以通过在网页上右击查看源代码中查看编码方式:content="text/html;charset=utf-8"->

我们便可以知道网页的编码方式是utf8.由于中文的编码方式为gbk,所以我们需要将编码方式改变为gbk。

我查看了一些资料,说requests可以自动获取网页的编码方式的,并且通过res.encode输出一看是utf8,是的 没错。但是输出来的内容中文存在乱码。 有说可以直接指定获取到内容的encode属性即可,"res.encode='gbk'",但我尝试了不可以的。

python内部的编码方式为utf8,也就是说python在处理其他字符串内容的时候首先要先将内容转化为utf8的编码方式,然后在解码为你想要的编码方式输出。

例如s=”中文” 为str类型的字符串 编码方式为gb2312

需要 s.decode("gb2312")将gb2312编码方式的内容解码为Unicode编码

然后输出的时候要将s的编码方式规定为gbk->s.encode("gbk")

言归正传,我们获取到网页内容res后, 通过res.content.decode("utf8","ignore").encode("gbk","ignore")就不会有乱码了。

这里所使用的ignore属性意思是忽略其中有一场的编码,仅显示有效的编码。

总结

以上就是本文关于python中requests爬去网页内容出现乱码问题解决方法的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:python编程之requests在网络请求中添加cookies参数方法详解、Python_LDA实现方法详解等,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
Python实现LRU算法的2种方法
Jun 24 Python
Python学习小技巧之列表项的拼接
May 20 Python
用python写个自动SSH登录远程服务器的小工具(实例)
Jun 17 Python
Python实现基本数据结构中队列的操作方法示例
Dec 04 Python
对python中的float除法和整除法的实例详解
Jul 20 Python
使用Python代码实现Linux中的ls遍历目录命令的实例代码
Sep 07 Python
详解Django CAS 解决方案
Oct 30 Python
使用Python串口实时显示数据并绘图的例子
Dec 26 Python
深度学习入门之Pytorch 数据增强的实现
Feb 26 Python
Python pip install如何修改默认下载路径
Apr 29 Python
python db类用法说明
Jul 07 Python
Python中time与datetime模块使用方法详解
Mar 31 Python
python编程之requests在网络请求中添加cookies参数方法详解
Oct 25 #Python
Python探索之pLSA实现代码
Oct 25 #Python
python正则表达式re之compile函数解析
Oct 25 #Python
Python2和Python3中print的用法示例总结
Oct 25 #Python
Python_LDA实现方法详解
Oct 25 #Python
python+mongodb数据抓取详细介绍
Oct 25 #Python
python装饰器实例大详解
Oct 25 #Python
You might like
受疫情影响 动画《Re从零开始的异世界生活》第二季延期至7月
2020/03/10 日漫
php 面向对象的一个例子
2011/04/12 PHP
PHP 搜索查询功能实现
2016/11/29 PHP
解析 thinkphp 框架中的部分方法
2017/05/07 PHP
ThinkPHP框架实现的邮箱激活功能示例
2018/06/15 PHP
Thinkphp极验滑动验证码实现步骤解析
2020/11/24 PHP
JavaScript 乱码问题
2009/08/06 Javascript
几个有趣的Javascript Hack
2010/07/24 Javascript
IE6下CSS图片缓存问题解决方法
2010/12/09 Javascript
js中有关IE版本检测
2012/01/04 Javascript
JavaScript cookie的设置获取删除详解
2014/02/11 Javascript
关于Javascript 对象(object)的prototype
2014/05/09 Javascript
基于PHP和Mysql相结合使用jqGrid读取数据并显示
2015/12/02 Javascript
微信小程序tabbar不显示解决办法
2017/06/08 Javascript
JS跨域请求的问题解析
2018/12/03 Javascript
python中的列表推导浅析
2014/04/26 Python
简单实现python进度条脚本
2017/12/18 Python
Python爬虫框架Scrapy实例代码
2018/03/04 Python
PyQt5实现暗黑风格的计时器
2019/07/29 Python
python数值基础知识浅析
2019/11/19 Python
Python-openCV读RGB通道图实例
2020/01/17 Python
使用css3做0.5px的细线的示例代码
2018/01/18 HTML / CSS
东南亚排名第一的服务市场:kaodim
2019/03/28 全球购物
土木工程建筑专业毕业生求职信
2013/10/21 职场文书
遗嘱继承公证书
2014/04/09 职场文书
《翻越远方的大山》教学反思
2014/04/13 职场文书
大学生求职计划书
2014/04/30 职场文书
祖国在我心中演讲稿200字
2014/08/28 职场文书
党员“四风”问题批评与自我批评思想汇报
2014/10/06 职场文书
2014年单位法制宣传日活动总结
2014/11/01 职场文书
教师年度考核个人总结
2015/02/12 职场文书
小学班主任个人总结
2015/03/03 职场文书
决心书格式范文
2015/09/23 职场文书
django 认证类配置实现
2021/11/11 Python
win10键盘驱动怎么修复?Win10键盘驱动修复小技巧
2022/04/06 数码科技
Apache POI操作批量导入MySQL数据库
2022/06/21 Servers