判断网页编码的方法python版


Posted in Python onAugust 12, 2016

在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能。我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取。
但是在抓取过程中会遇到编码的问题,那今天我们来看一下如何判断网页的编码:
网上很多网页的编码格式都不一样,大体上是GBK,GB2312,UTF-8等。
我们在获取网页的的数据后,先要对网页的编码进行判断,才能把抓取的内容的编码统一转换为我们能够处理的编码,避免乱码问题的出现。

下面介绍两种判断网页编码的方法:

总结:第二个方法很准确,在网页编码分析的时候用python模块分析内容是最准确的,而使用分析meta头信息的方法是不太准确的。

方法一:使用urllib模块的getparam方法    

import urllib
#autor:pythontab.com
fopen1 = urllib.urlopen('http://www.baidu.com').info()
print fopen1.getparam('charset')# baidu

方法二:使用chardet模块    

#如果你的python没有安装chardet模块,你需要首先安装一下chardet判断编码的模块哦 
#author:pythontab.com
import chardet 
import urllib
#先获取网页内容
data1 = urllib.urlopen('http://www.baidu.com').read()
#用chardet进行内容分析
chardit1 = chardet.detect(data1)
 
print chardit1['encoding'] # baidu

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Djang中静态文件配置方法
Jul 30 Python
Python基于PyGraphics包实现图片截取功能的方法
Dec 21 Python
python实现一个简单的并查集的示例代码
Mar 19 Python
Python实现简单求解给定整数的质因数算法示例
Mar 25 Python
使用Eclipse如何开发python脚本
Apr 11 Python
python实现人人自动回复、抢沙发功能
Jun 08 Python
详解Python的数据库操作(pymysql)
Apr 04 Python
python tools实现视频的每一帧提取并保存
Mar 20 Python
Python input函数使用实例解析
Nov 22 Python
给 TensorFlow 变量进行赋值的方式
Feb 10 Python
conda安装tensorflow和conda常用命令小结
Feb 20 Python
python 定义函数 返回值只取其中一个的实现
May 21 Python
Python利用IPython提高开发效率
Aug 10 #Python
详解python如何调用C/C++底层库与互相传值
Aug 10 #Python
浅析python中的分片与截断序列
Aug 09 #Python
总结python爬虫抓站的实用技巧
Aug 09 #Python
教你用Type Hint提高Python程序开发效率
Aug 08 #Python
Python如何实现文本转语音
Aug 08 #Python
Python脚本处理空格的方法
Aug 08 #Python
You might like
php下实现折线图效果的代码
2007/04/28 PHP
php magic_quotes_gpc的一点认识与分析
2008/08/18 PHP
PHP实现基本留言板功能原理与步骤详解
2020/03/26 PHP
JavaScript 原型继承之构造函数继承
2011/08/26 Javascript
js取得url地址参数实例
2013/02/22 Javascript
jquery+ajax实现跨域请求的方法
2015/01/20 Javascript
JavaScript实现网页对象拖放功能的方法
2015/04/15 Javascript
JavaScript取得WEB安全颜色列表的方法
2015/07/14 Javascript
url中的特殊符号有什么含义(推荐)
2016/06/17 Javascript
three.js加载obj模型的实例代码
2017/11/10 Javascript
基于vue.js无缝滚动效果
2018/01/25 Javascript
vue中添加mp3音频文件的方法
2018/03/02 Javascript
vue打包使用Nginx代理解决跨域问题
2018/08/27 Javascript
搭建Vue从Vue-cli到router路由护卫的实现
2019/11/14 Javascript
浅析JavaScript预编译和暗示全局变量
2020/09/03 Javascript
JS如何生成动态列表
2020/09/22 Javascript
Javascript中的奇葩知识,你知道吗?
2021/01/25 Javascript
Python运行的17个时新手常见错误小结
2012/08/07 Python
python压缩文件夹内所有文件为zip文件的方法
2015/06/20 Python
Python实现按学生年龄排序的实际问题详解
2017/08/29 Python
python实现简单中文词频统计示例
2017/11/08 Python
python tkinter canvas 显示图片的示例
2019/06/13 Python
python 安装教程之Pycharm安装及配置字体主题,换行,自动更新
2020/03/13 Python
Django ORM判断查询结果是否为空,判断django中的orm为空实例
2020/07/09 Python
2021年值得向Python开发者推荐的VS Code扩展插件
2021/01/25 Python
LA MER海蓝之谜美国官网:传奇面霜
2016/08/27 全球购物
社区敬老月活动实施方案
2014/02/17 职场文书
教师对学生的寄语
2014/04/03 职场文书
交通安全寄语大全
2014/04/08 职场文书
毕业生简历自我评价范文
2014/04/09 职场文书
夏季药店促销方案
2014/08/22 职场文书
校园开放日新闻稿
2015/07/17 职场文书
二十年同学聚会感言
2015/07/30 职场文书
七夕情人节问候语
2015/11/11 职场文书
2016学校元旦晚会经典开场白台词
2015/12/03 职场文书
MySQL大小写敏感的注意事项
2021/05/24 MySQL