python 采集中文乱码问题的完美解决方法


Posted in Python onSeptember 27, 2016

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了,希望对大家有所帮助,多多支持三水点靠木~

Python 相关文章推荐
在Django框架中编写Contact表单的教程
Jul 17 Python
Python实现Youku视频批量下载功能
Mar 14 Python
Python批量合并有合并单元格的Excel文件详解
Apr 05 Python
Python基于socket模块实现UDP通信功能示例
Apr 10 Python
python numpy和list查询其中某个数的个数及定位方法
Jun 27 Python
对tensorflow 的模型保存和调用实例讲解
Jul 28 Python
[原创]Python入门教程4. 元组基本操作
Oct 31 Python
python 随机打乱 图片和对应的标签方法
Dec 14 Python
Python+OpenCv制作证件图片生成器的操作方法
Aug 21 Python
python使用matplotlib绘制雷达图
Oct 18 Python
Tensorflow实现多GPU并行方式
Feb 03 Python
python GUI库图形界面开发之PyQt5信号与槽的高级使用技巧(自定义信号与槽)详解与实例
Mar 06 Python
20招让你的Python飞起来!
Sep 27 #Python
python搭建虚拟环境的步骤详解
Sep 27 #Python
利用python发送和接收邮件
Sep 27 #Python
实现python版本的按任意键继续/退出
Sep 26 #Python
Linux 下 Python 实现按任意键退出的实现方法
Sep 25 #Python
利用Python为iOS10生成图标和截屏
Sep 24 #Python
使用Python多线程爬虫爬取电影天堂资源
Sep 23 #Python
You might like
简单介绍下 PHP5 中引入的 MYSQLI的用途
2007/03/19 PHP
php中foreach结合curl实现多线程的方法分析
2016/09/22 PHP
php array_keys 返回数组的键名
2016/10/25 PHP
学习ExtJS fit布局使用说明
2009/10/08 Javascript
实测jquery data()如何存值
2013/08/18 Javascript
Jquery实现的tab效果可以指定默认显示第几页
2013/10/16 Javascript
JS的get和set使用示例
2014/02/20 Javascript
Bootstrap编写一个同时适用于PC、平板、手机的登陆页面
2016/06/30 Javascript
angularjs实现下拉列表的选中事件示例
2017/03/03 Javascript
js处理包含中文的字符串实例
2017/10/11 Javascript
详解Node.js模板引擎Jade入门
2018/01/19 Javascript
vue项目中api接口管理总结
2018/04/20 Javascript
详解基于Koa2开发微信二维码扫码支付相关流程
2018/05/16 Javascript
js实现炫酷光感效果
2020/09/05 Javascript
如何在JS文件中获取Vue组件
2020/09/16 Javascript
Vue在H5 项目中使用融云进行实时个人单聊通讯
2020/12/14 Vue.js
Python读取图片EXIF信息类库介绍和使用实例
2014/07/10 Python
PYTHON压平嵌套列表的简单实现
2016/06/08 Python
Python实现购物评论文本情感分析操作【基于中文文本挖掘库snownlp】
2018/08/07 Python
Python实现Linux监控的方法
2019/05/16 Python
Python如何生成xml文件
2020/06/04 Python
Win10下配置tensorflow-gpu的详细教程(无VS2015/2017)
2020/07/14 Python
python压包的概念及实例详解
2021/02/17 Python
Luxplus丹麦:香水和个人护理折扣
2018/04/23 全球购物
世嘉游戏英国官方商店:SEGA Shop UK
2019/09/20 全球购物
微软巴西官方网站:Microsoft Brasil
2019/09/26 全球购物
优秀教师主要事迹
2014/02/01 职场文书
商铺消防安全责任书
2014/07/29 职场文书
法定代表人授权委托书格式
2014/10/14 职场文书
党员批评与自我批评总结
2014/10/15 职场文书
本溪关门山导游词
2015/02/09 职场文书
刑事附带民事起诉状
2015/05/19 职场文书
SQL Server2019数据库之简单子查询的具有方法
2021/04/27 SQL Server
Vue过滤器(filter)实现及应用场景详解
2021/06/15 Vue.js
React + Threejs + Swiper 实现全景图效果的完整代码
2021/06/28 Javascript
python中的sys模块和os模块
2022/03/20 Python