Python中的数据对象持久化存储模块pickle的使用示例


Posted in Python onMarch 03, 2016

Python中可以使用 pickle 模块将对象转化为文件保存在磁盘上,在需要的时候再读取并还原。具体用法如下:
pickle是Python库中常用的序列化工具,可以将内存对象以文本或二进制格式导出为字符串,或者写入文档。后续可以从字符或文档中还原为内存对象。新版本的Python中用c重新实现了一遍,叫cPickle,性能更高。 下面的代码演示了pickle库的常用接口用法,非常简单:

import cPickle as pickle

# dumps and loads
# 将内存对象dump为字符串,或者将字符串load为内存对象
def test_dumps_and_loads():
  t = {'name': ['v1', 'v2']}
  print t

  o = pickle.dumps(t)
  print o
  print 'len o: ', len(o)

  p = pickle.loads(o)
  print p

 

# 关于HIGHEST_PROTOCOL参数,pickle 支持3种protocol,0、1、2:
# http://stackoverflow.com/questions/23582489/python-pickle-protocol-choice
# 0:ASCII protocol,兼容旧版本的Python
# 1:binary format,兼容旧版本的Python
# 2:binary format,Python2.3 之后才有,更好的支持new-sytle class
def test_dumps_and_loads_HIGHEST_PROTOCOL():
  print 'HIGHEST_PROTOCOL: ', pickle.HIGHEST_PROTOCOL

  t = {'name': ['v1', 'v2']}
  print t

  o = pickle.dumps(t, pickle.HIGHEST_PROTOCOL)
  print 'len o: ', len(o)

  p = pickle.loads(o)
  print p


# new-style class
def test_new_sytle_class():
  class TT(object):
    def __init__(self, arg, **kwargs):
      super(TT, self).__init__()
      self.arg = arg
      self.kwargs = kwargs

    def test(self):
      print self.arg
      print self.kwargs

  # ASCII protocol
  t = TT('test', a=1, b=2)
  o1 = pickle.dumps(t)
  print o1
  print 'o1 len: ', len(o1)
  p = pickle.loads(o1)
  p.test()

  # HIGHEST_PROTOCOL对new-style class支持更好,性能更高
  o2 = pickle.dumps(t, pickle.HIGHEST_PROTOCOL)
  print 'o2 len: ', len(o2)
  p = pickle.loads(o2)
  p.test()


# dump and load
# 将内存对象序列化后直接dump到文件或支持文件接口的对象中
# 对于dump,需要支持write接口,接受一个字符串作为输入参数,比如:StringIO
# 对于load,需要支持read接口,接受int输入参数,同时支持readline接口,无输入参数,比如StringIO

# 使用文件,ASCII编码
def test_dump_and_load_with_file():
  t = {'name': ['v1', 'v2']}

  # ASCII format
  with open('test.txt', 'w') as fp:
    pickle.dump(t, fp)

  with open('test.txt', 'r') as fp:
    p = pickle.load(fp)
    print p


# 使用文件,二进制编码
def test_dump_and_load_with_file_HIGHEST_PROTOCOL():
  t = {'name': ['v1', 'v2']}
  with open('test.bin', 'wb') as fp:
    pickle.dump(t, fp, pickle.HIGHEST_PROTOCOL)

  with open('test.bin', 'rb') as fp:
    p = pickle.load(fp)
    print p


# 使用StringIO,二进制编码
def test_dump_and_load_with_StringIO():
  import StringIO

  t = {'name': ['v1', 'v2']}

  fp = StringIO.StringIO()
  pickle.dump(t, fp, pickle.HIGHEST_PROTOCOL)

  fp.seek(0)
  p = pickle.load(fp)
  print p

  fp.close()


# 使用自定义类
# 这里演示用户自定义类,只要实现了write、read、readline接口,
# 就可以用作dump、load的file参数
def test_dump_and_load_with_user_def_class():
  import StringIO

  class FF(object):
    def __init__(self):
      self.buf = StringIO.StringIO()

    def write(self, s):
      self.buf.write(s)
      print 'len: ', len(s)

    def read(self, n):
      return self.buf.read(n)

    def readline(self):
      return self.buf.readline()

    def seek(self, pos, mod=0):
      return self.buf.seek(pos, mod)

    def close(self):
      self.buf.close()

  fp = FF()
  t = {'name': ['v1', 'v2']}
  pickle.dump(t, fp, pickle.HIGHEST_PROTOCOL)

  fp.seek(0)
  p = pickle.load(fp)
  print p

  fp.close()


# Pickler/Unpickler
# Pickler(file, protocol).dump(obj) 等价于 pickle.dump(obj, file[, protocol])
# Unpickler(file).load() 等价于 pickle.load(file)
# Pickler/Unpickler 封装性更好,可以很方便的替换file
def test_pickler_unpickler():
  t = {'name': ['v1', 'v2']}

  f = file('test.bin', 'wb')
  pick = pickle.Pickler(f, pickle.HIGHEST_PROTOCOL)
  pick.dump(t)
  f.close()

  f = file('test.bin', 'rb')
  unpick = pickle.Unpickler(f)
  p = unpick.load()
  print p
  f.close()

pickle.dump(obj, file[, protocol])
这是将对象持久化的方法,参数的含义分别为:

  • obj: 要持久化保存的对象;
  • file: 一个拥有 write() 方法的对象,并且这个 write() 方法能接收一个字符串作为参数。这个对象可以是一个以写模式打开的文件对象或者一个 StringIO 对象,或者其他自定义的满足条件的对象。
  • protocol: 这是一个可选的参数,默认为 0 ,如果设置为 1 或 True,则以高压缩的二进制格式保存持久化后的对象,否则以ASCII格式保存。

对象被持久化后怎么还原呢?pickle 模块也提供了相应的方法,如下:

pickle.load(file)
只有一个参数 file ,对应于上面 dump 方法中的 file 参数。这个 file 必须是一个拥有一个能接收一个整数为参数的 read() 方法以及一个不接收任何参数的 readline() 方法,并且这两个方法的返回值都应该是字符串。这可以是一个打开为读的文件对象、StringIO 对象或其他任何满足条件的对象。

下面是一个基本的用例:

# -*- coding: utf-8 -*-

import pickle
# 也可以这样:
# import cPickle as pickle

obj = {"a": 1, "b": 2, "c": 3}

# 将 obj 持久化保存到文件 tmp.txt 中
pickle.dump(obj, open("tmp.txt", "w"))

# do something else ...

# 从 tmp.txt 中读取并恢复 obj 对象
obj2 = pickle.load(open("tmp.txt", "r"))

print obj2

# -*- coding: utf-8 -*-
 
import pickle
# 也可以这样:
# import cPickle as pickle
 
obj = {"a": 1, "b": 2, "c": 3}
 
# 将 obj 持久化保存到文件 tmp.txt 中
pickle.dump(obj, open("tmp.txt", "w"))
 
# do something else ...
 
# 从 tmp.txt 中读取并恢复 obj 对象
obj2 = pickle.load(open("tmp.txt", "r"))
 
print obj2

不过实际应用中,我们可能还会有一些改进,比如用 cPickle 来代替 pickle ,前者是后者的一个 C 语言实现版本,拥有更快的速度,另外,有时在 dump 时也会将第三个参数设为 True 以提高压缩比。再来看下面的例子:

# -*- coding: utf-8 -*-

import cPickle as pickle
import random
import os

import time

LENGTH = 1024 * 10240

def main():
 d = {}
 a = []
 for i in range(LENGTH):
 a.append(random.randint(0, 255))

 d["a"] = a

 print "dumping..."

 t1 = time.time()
 pickle.dump(d, open("tmp1.dat", "wb"), True)
 print "dump1: %.3fs" % (time.time() - t1)

 t1 = time.time()
 pickle.dump(d, open("tmp2.dat", "w"))
 print "dump2: %.3fs" % (time.time() - t1)

 s1 = os.stat("tmp1.dat").st_size
 s2 = os.stat("tmp2.dat").st_size

 print "%d, %d, %.2f%%" % (s1, s2, 100.0 * s1 / s2)

 print "loading..."

 t1 = time.time()
 obj1 = pickle.load(open("tmp1.dat", "rb"))
 print "load1: %.3fs" % (time.time() - t1)

 t1 = time.time()
 obj2 = pickle.load(open("tmp2.dat", "r"))
 print "load2: %.3fs" % (time.time() - t1)


if __name__ == "__main__":
 main()

# -*- coding: utf-8 -*-
 
import cPickle as pickle
import random
import os
 
import time
 
LENGTH = 1024 * 10240
 
def main():
 d = {}
 a = []
 for i in range(LENGTH):
 a.append(random.randint(0, 255))
 
 d["a"] = a
 
 print "dumping..."
 
 t1 = time.time()
 pickle.dump(d, open("tmp1.dat", "wb"), True)
 print "dump1: %.3fs" % (time.time() - t1)
 
 t1 = time.time()
 pickle.dump(d, open("tmp2.dat", "w"))
 print "dump2: %.3fs" % (time.time() - t1)
 
 s1 = os.stat("tmp1.dat").st_size
 s2 = os.stat("tmp2.dat").st_size
 
 print "%d, %d, %.2f%%" % (s1, s2, 100.0 * s1 / s2)
 
 print "loading..."
 
 t1 = time.time()
 obj1 = pickle.load(open("tmp1.dat", "rb"))
 print "load1: %.3fs" % (time.time() - t1)
 
 t1 = time.time()
 obj2 = pickle.load(open("tmp2.dat", "r"))
 print "load2: %.3fs" % (time.time() - t1)
 
 
if __name__ == "__main__":
 main()

在我的电脑上执行结果为:

dumping…
dump1: 1.297s
dump2: 4.750s
20992503, 68894198, 30.47%
loading…
load1: 2.797s
load2: 10.125s

可以看到,dump 时如果指定了 protocol 为 True,压缩过后的文件的大小只有原来的文件的 30% ,同时无论在 dump 时还是 load 时所耗费的时间都比原来少。因此,一般来说,可以建议把这个值设为 True 。

另外,pickle 模块还提供 dumps 和 loads 两个方法,用法与上面的 dump 和 load 方法类似,只是不需要输入 file 参数,输入及输出都是字符串对象,有些场景中使用这两个方法可能更为方便。

Python 相关文章推荐
Flask框架学习笔记(一)安装篇(windows安装与centos安装)
Jun 25 Python
在Python下进行UDP网络编程的教程
Apr 29 Python
python在windows下创建隐藏窗口子进程的方法
Jun 04 Python
Python常用的内置序列结构(列表、元组、字典)学习笔记
Jul 08 Python
python3学习笔记之多进程分布式小例子
Feb 13 Python
python多维数组切片方法
Apr 13 Python
Python使用Tkinter实现转盘抽奖器的步骤详解
Jan 06 Python
Django实现列表页商品数据返回教程
Apr 03 Python
Python异常处理机制结构实例解析
Jul 23 Python
Python读取xlsx数据生成图标代码实例
Aug 12 Python
Python虚拟环境virtualenv创建及使用过程图解
Dec 08 Python
python中操作文件的模块的方法总结
Feb 04 Python
Python和Perl绘制中国北京跑步地图的方法
Mar 03 #Python
python套接字流重定向实例汇总
Mar 03 #Python
Python设计模式中单例模式的实现及在Tornado中的应用
Mar 02 #Python
Python使用设计模式中的责任链模式与迭代器模式的示例
Mar 02 #Python
详解Python设计模式编程中观察者模式与策略模式的运用
Mar 02 #Python
Python设计模式编程中解释器模式的简单程序示例分享
Mar 02 #Python
分析Python中设计模式之Decorator装饰器模式的要点
Mar 02 #Python
You might like
生成静态页面的php函数,php爱好者站推荐
2007/03/19 PHP
PHP+MySQL 手工注入语句大全 推荐
2009/10/30 PHP
使用GDB调试PHP代码,解决PHP代码死循环问题
2015/03/02 PHP
8个PHP数组面试题
2015/06/23 PHP
对采用动态原型方式无法展示继承机制得思考
2009/12/04 Javascript
比较搞笑的js陷阱题
2010/02/07 Javascript
javascript日期对象格式化为字符串的实现方法
2014/01/14 Javascript
基于jquery实现简单的手风琴特效
2015/11/24 Javascript
jQuery+PHP实现微信转盘抽奖功能的方法
2016/05/25 Javascript
JS简单去除数组中重复项的方法
2016/09/13 Javascript
javascript数据结构之串的概念与用法分析
2017/04/12 Javascript
Koa2 之文件上传下载的示例代码
2018/03/29 Javascript
React Native日期时间选择组件的示例代码
2018/04/27 Javascript
jQuery 判断元素是否存在然后按需加载内容的实现代码
2020/01/16 jQuery
详解Vue中的watch和computed
2020/11/09 Javascript
Vue实现指令式动态追加小球动画组件的步骤
2020/12/18 Vue.js
python实用代码片段收集贴
2015/06/03 Python
python实现外卖信息管理系统
2018/01/11 Python
Python实现Pig Latin小游戏实例代码
2018/02/02 Python
python中yaml配置文件模块的使用详解
2018/04/27 Python
详解Python Qt的窗体开发的基本操作
2019/07/14 Python
Windows10下 python3.7 安装 facenet的教程
2019/09/10 Python
Pytorch 神经网络—自定义数据集上实现教程
2020/01/07 Python
Expected conditions模块使用方法汇总代码解析
2020/08/13 Python
python 利用百度API识别图片文字(多线程版)
2020/12/14 Python
HTML5+CSS3 诱人的实例:3D立方体旋转动画实例
2016/12/30 HTML / CSS
HTML5 body设置全屏背景图片的示例代码
2020/12/08 HTML / CSS
椰子猫砂:CatSpot
2018/08/27 全球购物
TripAdvisor日本:全球领先的旅游网站
2019/02/14 全球购物
Doyoueven官网:澳大利亚健身服饰和配饰品牌
2019/03/24 全球购物
美国运动鞋类和服装零售连锁店:Shoe Palace
2019/08/13 全球购物
Hotels.com越南:酒店预订
2019/10/29 全球购物
职务说明书范文
2014/05/07 职场文书
单位委托书怎么写
2014/08/02 职场文书
初中班主任心得体会
2016/01/07 职场文书
MongoDB支持的数据类型
2022/04/11 MongoDB