python字符串编码识别模块chardet简单应用


Posted in Python onJune 15, 2015

python的字符串编码识别模块(第三方库):

官方地址: http://pypi.python.org/pypi/chardet

import chardet
import urllib
 
# 可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
运行结果表示有99%的概率认为这段代码是GB2312编码方式。
 
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
# 分块进行测试,直到达到阈值
detector.feed(line)
if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景,如果要对一个大文件进行编码识别,使用这种高级的方法,可以只读一部,去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据,在每次检测完,一定要运行一下detector.reset()。清除之前的数据。

以上所述就是本文的全部内容了,希望大家能够喜欢。

Python 相关文章推荐
Python中针对函数处理的特殊方法
Mar 06 Python
Python学习笔记_数据排序方法
May 22 Python
Python Tkinter基础控件用法
Sep 03 Python
使用pyecharts在jupyter notebook上绘图
Apr 23 Python
python操作xlsx文件的包openpyxl实例
May 03 Python
python开发游戏的前期准备
May 05 Python
Python SELENIUM上传文件或图片实现过程
Oct 28 Python
python输出pdf文档的实例
Feb 13 Python
Django的ListView超详细用法(含分页paginate)
May 21 Python
python suds访问webservice服务实现
Jun 26 Python
详解基于python的全局与局部序列比对的实现(DNA)
Oct 07 Python
Python 制作自动化翻译工具
Apr 25 Python
Python字符串格式化
Jun 15 #Python
Java中重定向输出流实现用文件记录程序日志
Jun 12 #Python
Python2中的raw_input() 与 input()
Jun 12 #Python
Windows下实现Python2和Python3两个版共存的方法
Jun 12 #Python
Python3中的2to3转换工具使用示例
Jun 12 #Python
Python中unittest模块做UT(单元测试)使用实例
Jun 12 #Python
搞笑的程序猿:看看你是哪种Python程序员
Jun 12 #Python
You might like
海贼王:最美的悬赏令!
2020/03/02 日漫
Terran历史背景
2020/03/14 星际争霸
php模拟ping命令(php exec函数的使用方法)
2013/10/25 PHP
php cli配置文件问题分析
2015/10/15 PHP
golang与PHP输出excel示例
2016/07/22 PHP
ie和firefox中img对象区别的困惑
2006/12/27 Javascript
深入理解JavaScript系列(37):设计模式之享元模式详解
2015/03/04 Javascript
使用纯javascript实现放大镜效果
2015/03/18 Javascript
浅析js中substring和substr的方法
2015/11/09 Javascript
Bootstrap组件学习之导航、标签、面包屑导航(精品)
2016/05/17 Javascript
jQuery Ztree行政地区树状展示(点击加载)
2016/11/09 Javascript
JavaScript数据结构链表知识详解
2016/11/21 Javascript
JavaScript实现的CRC32函数示例
2016/11/23 Javascript
使用BootStrap进行轮播图的制作
2017/01/06 Javascript
JavaScript运动框架 多值运动(四)
2017/05/18 Javascript
vue select二级联动第二级默认选中第一个option值的实例
2018/01/10 Javascript
使用Object.defineProperty如何巧妙找到修改某个变量的准确代码位置
2018/11/02 Javascript
详解JWT token心得与使用实例
2019/08/02 Javascript
react实现同页面三级跳转路由布局
2019/09/26 Javascript
Vue Elenent实现表格相同数据列合并
2020/11/30 Vue.js
vue+elementUI动态增加表单项并添加验证的代码详解
2020/12/17 Vue.js
多种类型jQuery网页验证码插件代码实例
2021/01/09 jQuery
酷! 程序员用Python带你玩转冲顶大会
2018/01/17 Python
django配置连接数据库及原生sql语句的使用方法
2019/03/03 Python
python3+PyQt5 创建多线程网络应用-TCP客户端和TCP服务器实例
2019/06/17 Python
python提取照片坐标信息的实例代码
2019/08/14 Python
Python Django 封装分页成通用的模块详解
2019/08/21 Python
python3实现raspberry pi(树莓派)4驱小车控制程序
2020/02/12 Python
Win10下用Anaconda安装TensorFlow(图文教程)
2020/06/18 Python
python如何变换环境
2020/07/21 Python
销售找工作求职信
2013/12/20 职场文书
学习党的群众路线剖析材料
2014/10/09 职场文书
2015人事行政工作总结范文
2015/05/21 职场文书
2016年幼儿园教研活动总结
2016/04/05 职场文书
如何用JavaScript学习算法复杂度
2021/04/30 Javascript
windows11选中自动复制怎么开启? Win11自动复制所选内容的方法
2022/07/23 数码科技