编程 Python

详解Python中的编码问题（encoding与decode、str与bytes）

Posted in Python onSeptember 30, 2020

1 引言

在文件读写及字符操作时，我们经常会出现下面这几种错误：

TypeError: write() argument must be str, not bytes
AttributeError: 'URLError' object has no attribute 'code'
UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' inposition 5747: illegal multibyte sequence

这些错误一看就是编码问题，本篇博文总结一下Python3文件读写及字符操作中的编码。

2 编码发展史

（1）ASCII编码

众所周知，计算机只能处理0和1，任何符号都转换为0和1的序列才能处理。计算机中8个位（bit）作为一个字节，所以1个字节能产生2的8次方个0和1的不同组合，也就是说1个字节做多能表示256种字符。ASCII编码就是用1个字节来存储字符，计算机最初是美国人发明的，他们的符号不多，所以还将8个0和1序列中的第一位固定为0，ASCII只能表示127个字符。

（2）GB2312编码

美国佬的符号不多，所以ASCII编码够用，但是其他国家就不行了，每个国家符号数量都不一样，就各自指定了自己的编码。例如我们中国就制定了GB2312编码。GB2312编码用2个字节表示一个字符。

（3）Unicode编码

每个国家都用自己的编码，编码一朵就容易乱套，也没法交流，所以需要一种编码把各个国家的编码都囊括进去，这就是Unicode编码的由来。所以，Unicode也被称为万国码。Unicode编码也用2个字节存储一个字符。

（4）utf-8编码

Unicode编码解决了编码不能通用的问题，但是却容易浪费内存，尤其是在存储英文的时候，例如一个字符“A”，ASCII编码只需要1个字节就够，但是Unicode编码必须要用2个字节。为了解决这一问题，就有了utf-8编码。 utf-8编码把存储英文依旧用一个字节，汉字就3个字节。特别是生僻的编程4-6字节，如果传输大量英文，utf-8作用就很明显了。
utf-8编码进行存储时有极大地优势，但是当读取到计算机内存时却不大合适，因为utf-8编码是变长的，不方便寻址和索引，所以在计算机内存中，还是转化为Unicode编码合适些。这就可以解释为什么每次读取文本时，要将编码转化为Unicode编码，而将内存中的字符写入文件存储时，要将编码转化为utf-8了。

3 str与bytes

在Python3中，文本总是为Unicode编码，在类型上为str类，也就是说Python编译器只会把Unicode编码下的二进制流显示为我们可识别的符号。二进制流在Python中也有一个专门的类用于表示这种二进制序列，那就是bytes（在Python中这个二进制序列显示为16进制，但本质还是二进制）。一个str在不同的编码下就可以转化为不同的bytes（二进制流），反之，要将bytes转化为可识别的str就必须用对应的编码，否则就会报错。

用人类语言类比一下：我们要表达“吃饭”这件事物（str），翻译为各个国家的文字后有各不相同的表示，中文表示为“吃饭”，英文表示为“eat”，这就是“吃饭”这个str在不同编码写的表示。但官方只认中文（Pythonstr只认Unicode编码），所以就必须把“eat”用英语（编码）的表示方式转化为中文的“吃饭”（Unicode编码），官方才会显示知道是吃饭这件事。

>>> s = '吃饭'
>>> type(s)
<class 'str'>
>>> s1 = s.encode(encoding='utf-8')
>>> type(s1)
<class 'bytes'>
>>> s1
b'\xe5\x90\x83\xe9\xa5\xad'
>>> s2 = s.encode(encoding='gb2312')
>>> type(s2)
<class 'bytes'> 
>>> s2
b'\xb3\xd4\xb7\xb9'
>>> s1.decode('utf-8')
'吃饭'
>>> s2.decode('gb2312')
'吃饭'

详解Python中的编码问题（encoding与decode、str与bytes）

4 文件编码

在python 3 中字符是以Unicode的形式存储的，当然这里所说的存储是指存储在计算机内存当中，如果是存储在硬盘里，Python 3的字符是以bytes形式存储，也就是说如果要将字符写入硬盘，就必须对字符进行encode。对上面这段话再解释一下，如果要将str写入文件，如果以‘w'模式写入，则要求写入的内容必须是str类型；如果以‘wb'形式写入，则要求写入的内容必须是bytes类型。文章开头出现的几种错误，就是因为写入模式与写入内容的数据类型不匹配造成的。

s1 = '你好'
#如果是以‘w'的方式写入，写入前一定要进行encoding，否则会报错 
with open('F:\\1.txt','w',encoding='utf-8') as f1:
 f1.write(s1)
s2 = s1.encode("utf-8")#转换为bytes的形式
#这时候写入方式一定要是‘wb'，且一定不能加encoding参数
with open('F:\\2.txt','wb') as f2:
 f2.write(s2)

有的人会问，我在系统里面用文本编辑器打开以bytes形式写入的2.txt文件，发现里面显示的是‘你好'，而不是‘b'\xe4\xbd\xa0\xe5\xa5\xbd''，因为文本文档打开2.txt时，系统会用合适的编码将其显示为对应的符号，然后才给你看到。

5 网页编码

网页编码和文件编码方法差不多，如下urlopen下载下来的网页read()且用decoding(‘utf-8')解码，那就必须以‘w'的方式写入文件。如果只是read()而不用encoding(‘utf-8')进行编码，一定要以‘wb'方式写入：

以‘w'方式写入时：

response= url_open('http://blog.csdn.net/gs_zhaoyang/article/details/13768925 ' ,timeout=5 )#自定义的一个网页下载函数
#此处以UTF-8方式进行解码，解码后的数据以unicode的方式存储在html中
html = response.read().decode('UTF-8')
print(type(html))#输出结果：<class 'str'>
#这时写入方式一定要加encoding,以encoding
# 即UTF-8的方式对二进制数据进行编码才能写入
with open('F:\DownloadAppData\html.txt',"w" , encoding='UTF-8') as f:
 f.write(html)

以‘wb'方式写入：

response= url_open('http://blog.csdn.net/gs_zhaoyang/article/details/13768925 ' ,timeout=5 )
html = response.read()#此处不需要进行解码，下载下来
print(type(html))#输出结果：<class 'bytes'>
with open('F:\DownloadAppData\html.txt',"wb" ) as f:
 f.write(html)

如果要在Python3中，对urlopen下载下来的网页进行字符操作（例如正则匹配、lxml提取），就必须decode成Unicode。

作者：奥辰

微信号：chb1137796095

Github：https://github.com/ChenHuabin321

欢迎加V交流，共同学习，共同进步！

以上就是详解Python中的编码问题（encoding与decode、str与bytes）的详细内容，更多关于python 编码的资料请关注三水点靠木其它相关文章！

详解Python中的编码问题（encoding与decode、str与bytes）

- Author -

奥辰

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python调用命令行进度条的方法

May 05 Python

Python中常见的数据类型小结

Aug 29 Python

python实现对csv文件的列的内容读取

Jul 04 Python

Python2与Python3的区别实例分析

Apr 11 Python

django-rest-swagger的优化使用方法

Aug 29 Python

Python实现生成密码字典的方法示例

Sep 02 Python

Python数据处理篇之Sympy系列(五)---解方程

Oct 12 Python

Python换行与不换行的输出实例

Feb 19 Python

Python生成器常见问题及解决方案

Mar 21 Python

Python基于Webhook实现github自动化部署

Nov 28 Python

Python制作一个随机抽奖小工具的实现

Jul 07 Python

Python 数据可视化之Bokeh详解

Nov 02 Python

python 生成器需注意的小问题

Sep 29 #Python

python 两种方法删除空文件夹

Sep 29 #Python

如何使用python写截屏小工具

Sep 29 #Python

python如何调用百度识图api

Sep 29 #Python

Python 串口通信的实现

Sep 29 #Python

使用py-spy解决scrapy卡死的问题方法

Sep 29 #Python

详解python对象之间的交互

Sep 29 #Python

You might like

discuz7 phpMysql操作类

2009/06/21 PHP

PHP定时自动生成静态HTML的实现代码

2010/06/20 PHP

php学习之数组声明

2011/06/09 PHP

input file获得文件根目录简单实现

2013/04/26 PHP

php使用ZipArchive提示Fatal error: Class ZipArchive not found in的解决方法

2014/11/04 PHP

基于jquery编写的横向自适应幻灯片切换特效的实例代码

2013/08/06 Javascript

js中浮点型运算BUG的解决方法说明

2014/01/06 Javascript

使用jquery选择器如何获取父级元素、同级元素、子元素

2014/05/14 Javascript

Node.js和MongoDB实现简单日志分析系统

2015/04/25 Javascript

JavaScript继承学习笔记【新手必看】

2016/05/10 Javascript

Bootstrap基本组件学习笔记之面板(14)

2016/12/08 Javascript

vue权限路由实现的方法示例总结

2018/07/29 Javascript

JS中数据结构之栈

2019/01/01 Javascript

微信小程序如何保持登录状态

2019/08/16 Javascript

vue draggable resizable gorkys与v-chart使用与总结

2019/09/05 Javascript

vue解决花括号数据绑定不成功的问题

2019/10/30 Javascript

[43:32]2014 DOTA2华西杯精英邀请赛 5 25 LGD VS NewBee第一场

2014/05/26 DOTA

Python的爬虫包Beautiful Soup中用正则表达式来搜索

2016/01/20 Python

浅析Python中元祖、列表和字典的区别

2016/08/17 Python

CentOS 7下安装Python 3.5并与Python2.7兼容并存详解

2017/07/07 Python

利用python获取当前日期前后N天或N月日期的方法示例

2017/07/30 Python

Python设计模式之桥接模式原理与用法实例分析

2019/01/10 Python

PIL图像处理模块paste方法简单使用详解

2019/07/17 Python

python3获取当前目录的实现方法

2019/07/29 Python

Python如何读取文件中图片格式

2020/01/13 Python

Python BeautifulReport可视化报告代码实例

2020/04/13 Python

Python turtle库的画笔控制说明

2020/06/28 Python

接口自动化多层嵌套json数据处理代码实例

2020/11/20 Python

次世代生活态度：Hypebeast

2018/07/05 全球购物

英语简历自我评价

2014/01/26 职场文书

生产部管理制度

2014/01/31 职场文书

化学系大学生自荐信范文

2014/03/01 职场文书

淘宝客服专员岗位职责

2014/04/11 职场文书

勿忘国耻9.18演讲稿（经典篇）

2014/09/14 职场文书

php png失真的原因及解决办法

2021/10/24 PHP

Python3的进程和线程你了解吗

2022/03/16 Python