python黑魔法之编码转换


Posted in Python onJanuary 25, 2016

我们在使用其他语言的库做编码转换时,对于无法理解的字符,通常的处理也只有两种(或三种):

  • 抛异常
  • 替换成替代字符
  • 跳过

但是在复杂的现实世界中,由于各种不靠谱,我们处理的文本总会出现那么些不和谐因素,比如混合编码。在这种情况下,又回到了上面的处理办法。

那么问题来了,python有没有更好地办法呢?

答案是,有!

python的编码转换流程实际上是两段式转换:

source -> unicode -> dest

首先将字符串从原始编码转换成unicode。再将unicode转换成目标编码。

第一步我们一般采用decode()或者 unicode() 这两个函数完成。
第二步我们使用encode()函数完成。

在这里我们说的黑魔法就是在第一步实现。

decode和unicode函数都有一个叫做errors的可选参数。看看官方的描述:

  • errors may be given to set a different error
  • handling scheme. Default is 'strict' meaning that encoding errors raise
  • a UnicodeDecodeError. Other possible values are 'ignore' and 'replace'
  • as well as any other name registered with codecs. register_error that is
  • able to handle UnicodeDecodeErrors.

这个参数通常有三种值:

  • strict 默认值。如果出现编码错误,则会抛出UnicodeDecodeError。
  • ignore 跳过。
  • replace 用?替换。

好了,看到最后一句话了吗?好戏上演了!

模块codec有一个函数叫做register_error。他的作用让用户可以注册自定义的errors处理方法。
用来处理UnicodeDecodeError。

我们看看函数原型:

codecs.register_error(name, error_handler)

name: 错误处理的名称。用以填写在decode函数的error参数中。
error_handler: 处理函数。该函数接受一个异常参数。
返回一个tuple,该tuple有2个元素,第一个是纠错后的字符串,第二个是继续decode的起始位置

有了上面的基本概念。我们看下具体实现:

def cjk_error(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("don't know how to handle %r" % exc) 
  if exc.end + 1 > len(exc.object): 
    raise TypeError('unknown codec ,the object too short!') 
  ch1 = ord(exc.object[exc.start:exc.end]) 
  newpos = exc.end + 1 
  ch2 = ord(exc.object[exc.start + 1:newpos]) 
  sk = exc.object[exc.start:newpos] 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK 
    return (unicode(sk,'cp936'), newpos) 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5 
    return (unicode(sk,'big5'), newpos) 
  raise TypeError('unknown codec !') 
codecs.register_error("cjk_replace", cjk_replace)

上面这个是我从网上copy的。开始我觉得很不错,但是后来发现是个很不经推敲的算法。
比如utf8和gbk在前两个字节就有交集的部分。当一个utf8的字符串以gbk编码decode的时候,出现错误是从第三个字节开始(前两个字节也能够在gbk编码范围中对应到一个汉字)。
如:

a = "你"              # utf8编码:'\xe4\xbd\xa0'
c = unicode(a[:2],'gbk')  # 正常返回
c = unicode(a, 'gbk')    # UnicodeDecodeError 。错误发生在第三个字节

所以针对这种情况,做了下改进:

import codec

def cjk_replace(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("invalid exception type %s" e)

  src = e.encoding
  if src in ('gbk','gb18030', 'big5'):
    beg = e.start - 2
    if beg >= 0:
      try:
        return unicode(e.object[beg:e.end], 'utf8'), e.end + 1
      except:
        pass

  if exc.end + 1 > len(exc.object):
    raise TypeError('unknown codec ,the object too short!')
  ch1 = ord(exc.object[exc.start:exc.end])
  newpos = exc.end + 1
  ch2 = ord(exc.object[exc.start + 1:newpos])
  sk = exc.object[exc.start:newpos]

  if src != 'gbk' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK
    return (unicode(sk,'cp936'), newpos)
  if src != 'big5' and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5
    return (unicode(sk,'big5'), newpos)
  raise TypeError('unknown codec !')

codecs.register_error("cjk_replace", cjk_replace)

当然,这个逻辑其实还是不够严谨的。虽然对于这种混合编码这种畸形活处理有点较真儿。
不过既然python提供这样的能力,大家可以一起来讨论下,我们怎么可以做的更好?

Python 相关文章推荐
python 实现上传图片并预览的3种方法(推荐)
Jul 14 Python
Python实现的随机森林算法与简单总结
Jan 30 Python
对pycharm代码整体左移和右移缩进快捷键的介绍
Jul 16 Python
详解python算法之冒泡排序
Mar 05 Python
如何用Python来搭建一个简单的推荐系统
Aug 07 Python
PyTorch中topk函数的用法详解
Jan 02 Python
OpenCV哈里斯(Harris)角点检测的实现
Jan 15 Python
TensorFlow学习之分布式的TensorFlow运行环境
Feb 05 Python
python实现将列表中各个值快速赋值给多个变量
Apr 02 Python
Keras 快速解决OOM超内存的问题
Jun 11 Python
python基于Kivy写一个图形桌面时钟程序
Jan 28 Python
python接口测试返回数据为字典取值方式
Feb 12 Python
Python编程中对文件和存储器的读写示例
Jan 25 #Python
Python开发如何在ubuntu 15.10 上配置vim
Jan 25 #Python
详解Python验证码识别
Jan 25 #Python
Python网站验证码识别
Jan 25 #Python
谈谈Python进行验证码识别的一些想法
Jan 25 #Python
基于Python Shell获取hostname和fqdn释疑
Jan 25 #Python
21行Python代码实现拼写检查器
Jan 25 #Python
You might like
30 个很棒的PHP开源CMS内容管理系统小结
2011/10/14 PHP
php使用curl获取https请求的方法
2015/02/11 PHP
编写PHP脚本来实现WordPress中评论分页的功能
2015/12/10 PHP
PHP curl 或 file_get_contents 获取需要授权页面的方法
2017/05/05 PHP
阿里云PHP SMS短信服务验证码发送方法
2017/07/11 PHP
laravel5表单唯一验证的实例代码
2019/09/30 PHP
laravel 如何实现引入自己的函数或类库
2019/10/15 PHP
PHP框架实现WebSocket在线聊天通讯系统
2019/11/21 PHP
浅析Node.js的Stream模块中的Readable对象
2015/07/29 Javascript
解决JavaScript数字精度丢失问题的方法
2015/12/03 Javascript
移动端点击图片放大特效PhotoSwipe.js插件实现
2016/08/25 Javascript
JavaScript面试题大全(推荐)
2016/09/22 Javascript
Javascript从数组中随机取出不同元素的两种方法
2016/09/22 Javascript
JavaScript中的子窗口与父窗口的互相调用问题
2017/02/08 Javascript
Vue.js结合Ueditor富文本编辑器的实例代码
2017/07/11 Javascript
ReactNative实现Toast的示例
2017/12/31 Javascript
vue中引用swiper轮播插件的教程详解
2018/08/16 Javascript
vueScroll实现移动端下拉刷新、上拉加载
2019/03/22 Javascript
小程序实现层叠卡片滑动效果
2019/08/26 Javascript
layui 上传文件_批量导入数据UI的方法
2019/09/23 Javascript
基于vue.js仿淘宝收货地址并设置默认地址的案例分析
2020/08/20 Javascript
[01:37]PWL S2开团时刻DAY1&2——这符有毒
2020/11/20 DOTA
python利用rsa库做公钥解密的方法教程
2017/12/10 Python
python实现连续变量最优分箱详解--CART算法
2019/11/22 Python
Spark处理数据排序问题如何避免OOM
2020/05/21 Python
Martinelli官方商店:西班牙皮鞋和高跟鞋品牌
2019/07/30 全球购物
竞选班干部的演讲稿
2014/04/24 职场文书
房产转让协议书(2014版)
2014/09/30 职场文书
七年级地理教学计划
2015/01/22 职场文书
应届毕业生求职简历自我评价
2015/03/02 职场文书
药品销售员2015年终工作总结
2015/10/22 职场文书
html+css实现文字折叠特效实例
2021/06/02 HTML / CSS
JavaScript异步操作中串行和并行
2021/11/20 Javascript
国产动画《万圣街》日语配音版制作决定!
2022/03/20 国漫
为Centos安装指定版本的Docker
2022/04/01 Servers
box-shadow单边阴影的实现
2023/05/21 HTML / CSS