python字符串编码识别模块chardet简单应用


Posted in Python onJune 15, 2015

python的字符串编码识别模块(第三方库):

官方地址: http://pypi.python.org/pypi/chardet

import chardet
import urllib
 
# 可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
运行结果表示有99%的概率认为这段代码是GB2312编码方式。
 
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
# 分块进行测试,直到达到阈值
detector.feed(line)
if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景,如果要对一个大文件进行编码识别,使用这种高级的方法,可以只读一部,去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据,在每次检测完,一定要运行一下detector.reset()。清除之前的数据。

以上所述就是本文的全部内容了,希望大家能够喜欢。

Python 相关文章推荐
Python实现的金山快盘的签到程序
Jan 17 Python
python在windows命令行下输出彩色文字的方法
Mar 19 Python
Python脚本判断 Linux 是否运行在虚拟机上
Apr 25 Python
python 如何快速找出两个电子表中数据的差异
May 26 Python
python时间日期函数与利用pandas进行时间序列处理详解
Mar 13 Python
django初始化数据库的实例
May 27 Python
pyqt5对用qt designer设计的窗体实现弹出子窗口的示例
Jun 19 Python
教你如何编写、保存与运行Python程序的方法
Jul 12 Python
Django之创建引擎索引报错及解决详解
Jul 17 Python
python网络编程之多线程同时接受和发送
Sep 03 Python
Python HTMLTestRunner测试报告view按钮失效解决方案
May 25 Python
python 实现的车牌识别项目
Jan 25 Python
Python字符串格式化
Jun 15 #Python
Java中重定向输出流实现用文件记录程序日志
Jun 12 #Python
Python2中的raw_input() 与 input()
Jun 12 #Python
Windows下实现Python2和Python3两个版共存的方法
Jun 12 #Python
Python3中的2to3转换工具使用示例
Jun 12 #Python
Python中unittest模块做UT(单元测试)使用实例
Jun 12 #Python
搞笑的程序猿:看看你是哪种Python程序员
Jun 12 #Python
You might like
PHP 的 __FILE__ 常量
2007/01/15 PHP
Windows下php+mysql5.7配置教程
2017/05/16 PHP
laravel 解决强制跳转 https的问题
2019/10/22 PHP
PHP实现chrome表单请求数据转换为接口使用的json数据
2021/03/04 PHP
通过JAVASCRIPT读取ASP设定的COOKIE
2006/11/24 Javascript
jscript之Read an Excel Spreadsheet
2007/06/13 Javascript
js自定义事件代码说明
2011/01/31 Javascript
JS 如何获取radio选中后的值及不选择取radio的值
2013/10/28 Javascript
js浮点数保留两位小数点示例代码(四舍五入)
2013/12/26 Javascript
node.js实现BigPipe详解
2014/12/05 Javascript
Javascript基础教程之while语句
2015/01/18 Javascript
使用jspdf生成pdf报表
2015/07/03 Javascript
js计算文本框输入的字符数
2015/10/23 Javascript
浅谈javascript 函数表达式和函数声明的区别
2016/01/05 Javascript
js实现ctrl+v粘贴上传图片(兼容chrome、firefox、ie11)
2016/03/09 Javascript
jQuery中Ajax全局事件引用方式及各个事件(全局/局部)执行顺序
2016/06/02 Javascript
js本地图片预览实现代码
2016/10/09 Javascript
javascript之with的使用(阿里云、淘宝使用代码分析)
2016/10/11 Javascript
babel基本使用详解
2017/02/17 Javascript
基于Vue.js 2.0实现百度搜索框效果
2020/12/28 Javascript
[54:10]Spirit vs NB Supermajor小组赛 A组败者组决赛 BO3 第一场 6.2
2018/06/03 DOTA
[01:07:15]DOTA2-DPC中国联赛 正赛 DLG vs XG BO3 第二场 1月25日
2021/03/11 DOTA
python框架django基础指南
2016/09/08 Python
Python实现通讯录功能
2018/02/22 Python
python 定义n个变量方法 (变量声明自动化)
2018/11/10 Python
Python目录和文件处理总结详解
2019/09/02 Python
Python虚拟环境的创建和使用详解
2020/09/07 Python
Html5插件教程之添加浏览器放大镜效果的商品橱窗
2016/01/07 HTML / CSS
Spartoo葡萄牙鞋类网站:线上销售鞋履与时尚配饰
2017/01/11 全球购物
声明struct x1 { . . . }; 和typedef struct { . . . }x2;有什么不同
2012/06/02 面试题
自荐信格式范文
2013/10/07 职场文书
乡镇干部个人对照检查材料(群众路线)
2014/09/26 职场文书
详解Python中__new__方法的作用
2022/03/31 Python
进行数据处理的6个 Python 代码块分享
2022/04/06 Python
html中两种获取标签内的值的方法
2022/06/16 jQuery
windows server 2016 域环境搭建的方法步骤(图文)
2022/06/25 Servers