python 采集中文乱码问题的完美解决方法


Posted in Python onSeptember 27, 2016

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了,希望对大家有所帮助,多多支持三水点靠木~

Python 相关文章推荐
用Python给文本创立向量空间模型的教程
Apr 23 Python
Python制作爬虫抓取美女图
Jan 20 Python
Python标准库sched模块使用指南
Jul 06 Python
python基础教程项目二之画幅好画
Apr 02 Python
python中找出numpy array数组的最值及其索引方法
Apr 17 Python
django静态文件加载的方法
May 20 Python
Python 实现的 Google 批量翻译功能
Aug 26 Python
Python3实现二叉树的最大深度
Sep 30 Python
Pycharm最常用的快捷键及使用技巧
Mar 05 Python
python使用自定义钉钉机器人的示例代码
Jun 24 Python
解决Pycharm双击图标启动不了的问题(JetBrains全家桶通用)
Aug 07 Python
用 python 进行微信好友信息分析
Nov 28 Python
20招让你的Python飞起来!
Sep 27 #Python
python搭建虚拟环境的步骤详解
Sep 27 #Python
利用python发送和接收邮件
Sep 27 #Python
实现python版本的按任意键继续/退出
Sep 26 #Python
Linux 下 Python 实现按任意键退出的实现方法
Sep 25 #Python
利用Python为iOS10生成图标和截屏
Sep 24 #Python
使用Python多线程爬虫爬取电影天堂资源
Sep 23 #Python
You might like
新安装的MySQL数据库需要注意的安全知识
2008/07/30 PHP
laravel model模型定义实现开启自动管理时间created_at,updated_at
2019/10/17 PHP
全面了解构造函数继承关键apply call
2016/07/26 Javascript
AngularJS表单详解及示例代码
2016/08/17 Javascript
详解jQuery简单的表单应用
2016/12/16 Javascript
jQuery插件HighCharts绘制2D带有Legend的饼图效果示例【附demo源码下载】
2017/03/10 Javascript
JavaScript原生实现观察者模式的示例
2017/12/15 Javascript
详解Vue文档中几个易忽视部分的剖析
2018/03/24 Javascript
vue监听input标签的value值方法
2018/08/27 Javascript
详解vue项目中调用百度地图API使用方法
2019/04/25 Javascript
NodeJS 文件夹拷贝以及删除功能
2019/09/03 NodeJs
d3.js实现图形缩放平移
2019/12/19 Javascript
JavaScript字符和ASCII实现互相转换
2020/06/03 Javascript
js+canvas实现五子棋小游戏
2020/08/02 Javascript
python内置数据类型之列表操作
2018/11/12 Python
Python父目录、子目录的相互调用方法
2019/02/16 Python
python软件都是免费的吗
2020/06/18 Python
Python在字符串中处理html和xml的方法
2020/07/31 Python
CSS3中Color的一些特性介绍
2012/05/27 HTML / CSS
用css3实现当鼠标移进去时当前亮其他变灰效果
2014/04/08 HTML / CSS
巴西最大的体育用品商城:Netshoes巴西
2016/11/29 全球购物
迪拜领先运动补剂零售品牌中文站:Sporter商城
2019/08/20 全球购物
回门宴答谢词
2014/01/13 职场文书
中学生期末评语
2014/02/03 职场文书
学校领导班子群众路线整改措施
2014/09/16 职场文书
我们的节日元宵节活动总结
2015/02/06 职场文书
2015年社会实践个人总结
2015/03/06 职场文书
幼儿园六一儿童节主持词
2015/06/30 职场文书
2015年卫生局工作总结
2015/07/24 职场文书
外出考察学习心得体会
2016/01/18 职场文书
党风廉洁教育心得体会
2016/01/20 职场文书
开发一个封装iframe的vue组件
2021/03/29 Vue.js
Nginx服务器添加Systemd自定义服务过程解析
2021/03/31 Servers
几款流行的HTML5 UI框架比较(小结)
2021/04/08 HTML / CSS
python实现网络五子棋
2021/04/11 Python
HTML中的表单元素介绍
2022/02/28 HTML / CSS