序列化Python对象的方法


Posted in Python onAugust 01, 2020

问题

你需要将一个Python对象序列化为一个字节流,以便将它保存到一个文件、存储到数据库或者通过网络传输它。

解决方案

对于序列化最普遍的做法就是使用 pickle 模块。为了将一个对象保存到一个文件中,可以这样做:

import pickle

data = ... # Some Python object
f = open('somefile', 'wb')
pickle.dump(data, f)

为了将一个对象转储为一个字符串,可以使用 pickle.dumps()

s = pickle.dumps(data)

为了从字节流中恢复一个对象,使用 pickle.load() pickle.loads() 函数。比如:

# Restore from a file
f = open('somefile', 'rb')
data = pickle.load(f)

# Restore from a string
data = pickle.loads(s)

讨论

对于大多数应用程序来讲,dump() load() 函数的使用就是你有效使用 pickle 模块所需的全部了。 它可适用于绝大部分Python数据类型和用户自定义类的对象实例。 如果你碰到某个库可以让你在数据库中保存/恢复Python对象或者是通过网络传输对象的话, 那么很有可能这个库的底层就使用了 pickle 模块。

pickle 是一种Python特有的自描述的数据编码。 通过自描述,被序列化后的数据包含每个对象开始和结束以及它的类型信息。 因此,你无需担心对象记录的定义,它总是能工作。 举个例子,如果要处理多个对象,你可以这样做:

>>> import pickle
>>> f = open('somedata', 'wb')
>>> pickle.dump([1, 2, 3, 4], f)
>>> pickle.dump('hello', f)
>>> pickle.dump({'Apple', 'Pear', 'Banana'}, f)
>>> f.close()
>>> f = open('somedata', 'rb')
>>> pickle.load(f)
[1, 2, 3, 4]
>>> pickle.load(f)
'hello'
>>> pickle.load(f)
{'Apple', 'Pear', 'Banana'}
>>>

你还能序列化函数,类,还有接口,但是结果数据仅仅将它们的名称编码成对应的代码对象。例如:

>>> import math
>>> import pickle.
>>> pickle.dumps(math.cos)
b'\x80\x03cmath\ncos\nq\x00.'
>>>

当数据反序列化回来的时候,会先假定所有的源数据时可用的。 模块、类和函数会自动按需导入进来。对于Python数据被不同机器上的解析器所共享的应用程序而言, 数据的保存可能会有问题,因为所有的机器都必须访问同一个源代码。

千万不要对不信任的数据使用pickle.load()。
pickle在加载时有一个副作用就是它会自动加载相应模块并构造实例对象。
但是某个坏人如果知道pickle的工作原理,
他就可以创建一个恶意的数据导致Python执行随意指定的系统命令。
因此,一定要保证pickle只在相互之间可以认证对方的解析器的内部使用。

有些类型的对象是不能被序列化的。这些通常是那些依赖外部系统状态的对象, 比如打开的文件,网络连接,线程,进程,栈帧等等。 用户自定义类可以通过提供 __getstate__() __setstate__() 方法来绕过这些限制。 如果定义了这两个方法,pickle.dump() 就会调用 __getstate__() 获取序列化的对象。 类似的,__setstate__() 在反序列化时被调用。为了演示这个工作原理, 下面是一个在内部定义了一个线程但仍然可以序列化和反序列化的类:

# countdown.py
import time
import threading

class Countdown:
  def __init__(self, n):
    self.n = n
    self.thr = threading.Thread(target=self.run)
    self.thr.daemon = True
    self.thr.start()

  def run(self):
    while self.n > 0:
      print('T-minus', self.n)
      self.n -= 1
      time.sleep(5)

  def __getstate__(self):
    return self.n

  def __setstate__(self, n):
    self.__init__(n)

试着运行下面的序列化试验代码:

>>> import countdown
>>> c = countdown.Countdown(30)
>>> T-minus 30
T-minus 29
T-minus 28
...

>>> # After a few moments
>>> f = open('cstate.p', 'wb')
>>> import pickle
>>> pickle.dump(c, f)
>>> f.close()

然后退出Python解析器并重启后再试验下:

>>> f = open('cstate.p', 'rb')
>>> pickle.load(f)
countdown.Countdown object at 0x10069e2d0>
T-minus 19
T-minus 18
...

你可以看到线程又奇迹般的重生了,从你第一次序列化它的地方又恢复过来。

pickle 对于大型的数据结构比如使用 arraynumpy 模块创建的二进制数组效率并不是一个高效的编码方式。 如果你需要移动大量的数组数据,你最好是先在一个文件中将其保存为数组数据块或使用更高级的标准编码方式如HDF5 (需要第三方库的支持)。

由于 pickle 是Python特有的并且附着在源码上,所有如果需要长期存储数据的时候不应该选用它。 例如,如果源码变动了,你所有的存储数据可能会被破坏并且变得不可读取。 坦白来讲,对于在数据库和存档文件中存储数据时,你最好使用更加标准的数据编码格式如XML,CSV或JSON。 这些编码格式更标准,可以被不同的语言支持,并且也能很好的适应源码变更。

最后一点要注意的是 pickle 有大量的配置选项和一些棘手的问题。 对于最常见的使用场景,你不需要去担心这个,但是如果你要在一个重要的程序中使用pickle去做序列化的话, 最好去查阅一下 官方文档 。

以上就是序列化Python对象的方法的详细内容,更多关于序列化Python对象的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
初步探究Python程序的执行原理
Apr 11 Python
python统计文本文件内单词数量的方法
May 30 Python
使用Python操作MySQL的一些基本方法
Aug 16 Python
Python实现随机选择元素功能
Sep 14 Python
python使用TensorFlow进行图像处理的方法
Feb 28 Python
django中模板的html自动转意方法
May 27 Python
Python+OpenCV实现图像融合的原理及代码
Dec 03 Python
python requests库爬取豆瓣电视剧数据并保存到本地详解
Aug 10 Python
Python基础之函数基本用法与进阶详解
Jan 02 Python
实现ECharts双Y轴左右刻度线一致的例子
May 16 Python
Python如何实现定时器功能
May 28 Python
使用Python文件读写,自定义分隔符(custom delimiter)
Jul 05 Python
Python 忽略文件名编码的方法
Aug 01 #Python
Python 如何展开嵌套的序列
Aug 01 #Python
Python 日期与时间转换的方法
Aug 01 #Python
Python 执行矩阵与线性代数运算
Aug 01 #Python
Python实现数字的格式化输出
Aug 01 #Python
Python实现一个简单的递归下降分析器
Aug 01 #Python
Python 如何在字符串中插入变量
Aug 01 #Python
You might like
PHP 批量删除数据的方法分析
2009/10/30 PHP
分享下php5类中三种数据类型的区别
2015/01/26 PHP
php实现删除空目录的方法
2015/03/16 PHP
[原创]php常用字符串输出方法分析(echo,print,printf及sprintf)
2016/07/09 PHP
PHP编程计算日期间隔天数的方法
2017/04/26 PHP
兼容IE/Firefox/Opera/Safari的检测页面装载完毕的脚本Ext.onReady的实现
2009/07/14 Javascript
Package.js  现代化的JavaScript项目make工具
2012/05/23 Javascript
JavaScript 用cloneNode方法克隆节点的代码
2012/10/15 Javascript
alert中断settimeout计时功能
2013/07/26 Javascript
jquery ajax请求方式与提示用户正在处理请稍等
2014/09/01 Javascript
javascript比较两个日期相差天数的方法
2015/07/23 Javascript
轻松学习jQuery插件EasyUI EasyUI实现拖放商品放置购物车
2015/11/30 Javascript
详解JavaScript对象序列化
2016/01/19 Javascript
DOM中事件处理概览与原理的全面解析
2016/08/16 Javascript
js本地图片预览实现代码
2016/10/09 Javascript
seajs下require书写约定实例分析
2018/05/16 Javascript
JavaScript引用类型之基本包装类型实例分析【Boolean、Number和String】
2018/08/09 Javascript
JavaScript代码调试方法实例小结
2019/01/05 Javascript
nodejs搭建本地服务器并访问文件操作示例
2019/05/11 NodeJs
layui字体图标 loading图标静止不旋转的解决方法
2019/09/23 Javascript
Vue路由守卫之路由独享守卫
2019/09/25 Javascript
[43:57]Liquid vs Mineski 2019国际邀请赛小组赛 BO2 第二场 8.16
2019/08/19 DOTA
Python读写ini文件的方法
2015/05/28 Python
详解python脚本自动生成需要文件实例代码
2017/02/04 Python
python3.7 使用pymssql往sqlserver插入数据的方法
2019/07/08 Python
Pandas之排序函数sort_values()的实现
2019/07/09 Python
解决Pycharm 包已经下载,但是运行代码提示找不到模块的问题
2019/08/31 Python
Python多线程通信queue队列用法实例分析
2020/03/24 Python
Python如何设置指定窗口为前台活动窗口
2020/08/12 Python
viagogo法国票务平台:演唱会、体育比赛、戏剧门票
2017/03/27 全球购物
护士实习生自我鉴定范文
2013/12/10 职场文书
岗位竞聘演讲稿
2014/01/10 职场文书
党员干部2014全国两会学习心得体会
2014/03/10 职场文书
国庆横幅标语
2014/10/08 职场文书
2016优秀员工先进事迹材料
2016/02/25 职场文书
Python OpenCV超详细讲解读取图像视频和网络摄像头
2022/04/02 Python