python字符串编码识别模块chardet简单应用


Posted in Python onJune 15, 2015

python的字符串编码识别模块(第三方库):

官方地址: http://pypi.python.org/pypi/chardet

import chardet
import urllib
 
# 可根据需要,选择不同的数据
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
运行结果表示有99%的概率认为这段代码是GB2312编码方式。
 
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 创建一个检测对象
detector = UniversalDetector()
for line in usock.readlines():
# 分块进行测试,直到达到阈值
detector.feed(line)
if detector.done: break
# 关闭检测对象
detector.close()
usock.close()
# 输出检测结果
print detector.result
 
# 运行结果:
# {'confidence': 0.99, 'encoding': 'GB2312'}

应用背景,如果要对一个大文件进行编码识别,使用这种高级的方法,可以只读一部,去判别编码方式从而提高检测速度。如果希望使用一个检测对象检测多个数据,在每次检测完,一定要运行一下detector.reset()。清除之前的数据。

以上所述就是本文的全部内容了,希望大家能够喜欢。

Python 相关文章推荐
python命令行参数解析OptionParser类用法实例
Oct 09 Python
用Python编写一个国际象棋AI程序
Nov 28 Python
python实现的希尔排序算法实例
Jul 01 Python
django使用xlwt导出excel文件实例代码
Feb 06 Python
python调用OpenCV实现人脸识别功能
May 25 Python
Python爬虫包BeautifulSoup简介与安装(一)
Jun 17 Python
Python3使用腾讯云文字识别(腾讯OCR)提取图片中的文字内容实例详解
Feb 18 Python
matplotlib.pyplot.matshow 矩阵可视化实例
Jun 16 Python
在pycharm中文件取消用 pytest模式打开的操作
Sep 01 Python
神经网络训练采用gpu设置的方式
Mar 03 Python
Python通过m3u8文件下载合并ts视频的操作
Apr 16 Python
python数字图像处理之图像自动阈值分割示例
Jun 28 Python
Python字符串格式化
Jun 15 #Python
Java中重定向输出流实现用文件记录程序日志
Jun 12 #Python
Python2中的raw_input() 与 input()
Jun 12 #Python
Windows下实现Python2和Python3两个版共存的方法
Jun 12 #Python
Python3中的2to3转换工具使用示例
Jun 12 #Python
Python中unittest模块做UT(单元测试)使用实例
Jun 12 #Python
搞笑的程序猿:看看你是哪种Python程序员
Jun 12 #Python
You might like
php制作中间带自己定义图片二维码的方法
2014/01/27 PHP
ThinkPHP中的常用查询语言汇总
2014/08/22 PHP
php获取从百度、谷歌等搜索引擎进入网站关键词的方法
2015/07/08 PHP
php检测文本的编码
2015/07/26 PHP
php使用pthreads v3多线程实现抓取新浪新闻信息操作示例
2020/02/21 PHP
javascript 禁止复制网页
2009/06/11 Javascript
基于Jquery的跨域传输数据(JSONP)
2011/03/10 Javascript
创建公共调用 jQuery Ajax 带返回值
2012/08/01 Javascript
js分页代码分享
2014/04/28 Javascript
json的定义、标准格式及json字符串检验
2014/05/11 Javascript
Javascript在IE和Firefox浏览器常见兼容性问题总结
2016/08/03 Javascript
JavaScript注入漏洞的原理及防范(详解)
2016/12/04 Javascript
无阻塞加载js,防止因js加载不了影响页面显示的问题
2016/12/18 Javascript
Echarts基本用法_动力节点Java学院整理
2017/08/11 Javascript
JavaScript 下载svg图片为png格式
2018/06/21 Javascript
jQuery 实现DOM元素拖拽交换位置的实例代码
2020/07/14 jQuery
python正则表达式判断字符串是否是全部小写示例
2013/12/25 Python
Python实现简单登录验证
2016/04/13 Python
分享python数据统计的一些小技巧
2016/07/21 Python
Pycharm+Scrapy安装并且初始化项目的方法
2019/01/15 Python
python3实现的zip格式压缩文件夹操作示例
2019/08/17 Python
Django中间件拦截未登录url实例详解
2019/09/03 Python
pycharm新建Vue项目的方法步骤(图文)
2020/03/04 Python
Css3+Js制作漂亮时钟(附源码)
2013/04/24 HTML / CSS
CSS3实现可关闭的下拉手风琴菜单效果
2015/08/31 HTML / CSS
Otel.com:折扣酒店预订
2017/08/24 全球购物
学生安全教育材料
2014/02/14 职场文书
社会实践活动总结报告
2014/04/29 职场文书
法制宣传标语集锦
2014/06/25 职场文书
银行求职自荐信
2014/06/30 职场文书
2014年高中班主任工作总结
2014/11/08 职场文书
2014年技术员工作总结
2014/11/18 职场文书
golang elasticsearch Client的使用详解
2021/05/05 Golang
分享Python获取本机IP地址的几种方法
2022/03/17 Python
Spring Data JPA框架Repository自定义实现
2022/04/28 Java/Android
mysql字段为NULL索引是否会失效实例详解
2022/05/30 MySQL