在Python中使用zlib模块进行数据压缩的教程


Posted in Python onJune 26, 2015

Python标准模块中,有多个模块用于数据的压缩与解压缩,如zipfile,gzip, bz2等等。上次介绍了zipfile模块,今天就来讲讲zlib模块。
zlib.compress(string[, level])
zlib.decompress(string[, wbits[, bufsize]])

zlib.compress用于压缩流数据。参数string指定了要压缩的数据流,参数level指定了压缩的级别,它的取值范围是1到9。压缩速度与压缩率成反比,1表示压缩速度最快,而压缩率最低,而9则表示压缩速度最慢但压缩率最高。zlib.decompress用于解压数据。参数string指定了需要解压的数据,wbits和bufsize分别用于设置系统缓冲区大小(window buffer )与输出缓冲区大小(output buffer)。下面用一个例子来演示如何使用这两个方法:
 

#coding=gbk
 
import zlib, urllib
 
fp = urllib.urlopen('http://localhost/default.html')
str = fp.read()
fp.close()
 
#---- 压缩数据流。
str1 = zlib.compress(str, zlib.Z_BEST_COMPRESSION)
str2 = zlib.decompress(str1)
print len(str)
print len(str1)
print len(str2)
 
# ---- 结果
#5783
#1531
#5783

我们也可以使用Compress/Decompress对象来对数据进行压缩/解压缩。zlib.compressobj([level]) 与zlib.decompress(string[, wbits[, bufsize]]) 分别创建Compress/Decompress缩对象。通过对象对数据进行压缩和解压缩的使用方式与上面介绍的zlib.compress,zlib.decompress非常类似。但两者对数据的压缩还是有区别的,这主要体现在对大量数据进行操作的情况下。假如现在要压缩一个非常大的数据文件(上百M),如果使用zlib.compress来压缩的话,必须先一次性将文件里的数据读到内存里,然后将数据进行压缩。这样势必会战用太多的内存。如果使用对象来进行压缩,那么没有必要一次性读取文件的所有数据,可以先读一部分数据到内存里进行压缩,压缩完后写入文件,然后再读其他部分的数据压缩,如此循环重复,只到压缩完整个文件。下面一个例子来演示这之间的区别:
 

#coding=gbk
 
import zlib, urllib
 
fp = urllib.urlopen('http://localhost/default.html')  
# 访问的到的网址。
data = fp.read()
fp.close()
 
#---- 压缩数据流
str1 = zlib.compress(data, zlib.Z_BEST_COMPRESSION)
str2 = zlib.decompress(str1)
print '原始数据长度:', len(data)
print '-' * 30
print 'zlib.compress压缩后:', len(str1)
print 'zlib.decompress解压后:', len(str2)
print '-' * 30
 
#---- 使用Compress, Decompress对象对数据流进行压缩/解压缩
com_obj = zlib.compressobj(zlib.Z_BEST_COMPRESSION)
decom_obj = zlib.decompressobj()
 
str_obj = com_obj.compress(data)
str_obj += com_obj.flush()
print 'Compress.compress压缩后:', len(str_obj)
 
str_obj1 = decom_obj.decompress(str_obj)
str_obj1 += decom_obj.flush()
print 'Decompress.decompress解压后:', len(str_obj1)
print '-' * 30
 
#---- 使用Compress, Decompress对象,对数据进行分块压缩/解压缩。
com_obj1 = zlib.compressobj(zlib.Z_BEST_COMPRESSION)
decom_obj1 = zlib.decompressobj()
chunk_size = 30;
 
#原始数据分块
str_chunks = [data[i * chunk_size:(i + 1) * chunk_size] /
  for i in range((len(data) + chunk_size) / chunk_size)]
 
str_obj2 = ''
for chunk in str_chunks:
  str_obj2 += com_obj1.compress(chunk)
str_obj2 += com_obj1.flush()
print '分块压缩后:', len(str_obj2)
 
#压缩数据分块解压
str_chunks = [str_obj2[i * chunk_size:(i + 1) * chunk_size] /
  for i in range((len(str_obj2) + chunk_size) / chunk_size)]
str_obj2 = ''
for chunk in str_chunks:
  str_obj2 += decom_obj1.decompress(chunk)
str_obj2 += decom_obj1.flush()
print '分块解压后:', len(str_obj2)
 
# ---- 结果 ------------------------
原始数据长度: 5783
------------------------------
zlib.compress压缩后: 1531
zlib.decompress解压后: 5783
------------------------------
Compress.compress压缩后: 1531
Decompress.decompress解压后: 5783
------------------------------
分块压缩后: 1531
分块解压后: 5783

Python手册对zlib模块的介绍比较详细,更具体的应用,可以参考Python手册。

Python 相关文章推荐
Python 爬虫学习笔记之单线程爬虫
Sep 21 Python
python实现给微信公众号发送消息的方法
Jun 30 Python
利用Python爬取微博数据生成词云图片实例代码
Aug 31 Python
matplotlib实现热成像图colorbar和极坐标图的方法
Dec 13 Python
Python解析、提取url关键字的实例详解
Dec 17 Python
解决Python3 被PHP程序调用执行返回乱码的问题
Feb 16 Python
Django REST framework 分页的实现代码
Jun 19 Python
在Tensorflow中实现梯度下降法更新参数值
Jan 23 Python
Python爬虫谷歌Chrome F12抓包过程原理解析
Jun 04 Python
python实现猜数游戏(保存游戏记录)
Jun 22 Python
Python classmethod装饰器原理及用法解析
Oct 17 Python
Python内置数据结构列表与元组示例详解
Aug 04 Python
Python中的zipfile模块使用详解
Jun 25 #Python
Python实现保证只能运行一个脚本实例
Jun 24 #Python
Python中的默认参数详解
Jun 24 #Python
Python中的下划线详解
Jun 24 #Python
Python装饰器使用实例:验证参数合法性
Jun 24 #Python
Python线程详解
Jun 24 #Python
Python函数式编程指南(四):生成器详解
Jun 24 #Python
You might like
CodeIgniter启用缓存和清除缓存的方法
2014/06/12 PHP
php读取mssql的ntext字段返回值为空的解决方法
2014/12/30 PHP
PHP中的函数声明与使用详解
2017/05/27 PHP
通过JAVAScript实现页面自适应
2007/01/19 Javascript
利用onresize使得div可以随着屏幕大小而自适应的代码
2010/01/15 Javascript
jQuery EasyUI API 中文文档 - Tabs标签页/选项卡
2011/10/01 Javascript
从URL中提取参数与将对象转换为URL查询参数的实现代码
2012/01/12 Javascript
基于jQuery捕获超链接事件进行局部刷新代码
2012/05/10 Javascript
Javascript算符的优先级介绍
2013/03/20 Javascript
移动设备web开发首选框架:zeptojs介绍
2015/01/29 Javascript
关于cookie的初识和运用(js和jq)
2016/04/07 Javascript
jQuery查看选中对象HTML代码的方法
2016/06/17 Javascript
jquery根据td给相同tr下其他td赋值的实现方法
2016/10/05 Javascript
AngularJS实现给动态生成的元素绑定事件的方法
2016/12/14 Javascript
mongoose中利用populate处理嵌套的方法
2017/05/26 Javascript
微信小程序 自定义Toast实例代码
2017/06/12 Javascript
[js高手之路]原型式继承与寄生式继承详解
2017/08/28 Javascript
JS实现静态页面搜索并高亮显示功能完整示例
2017/09/19 Javascript
JavaScript深入V8引擎以及编写优化代码的5个技巧
2019/06/24 Javascript
小程序实现左滑删除效果
2019/07/25 Javascript
jQuery弹框插件使用方法详解
2020/05/26 jQuery
编写简单的Python程序来判断文本的语种
2015/04/07 Python
使用Python的package机制如何简化utils包设计详解
2017/12/11 Python
python实现梯度下降算法
2020/03/24 Python
numpy 返回函数的上三角矩阵实例
2019/11/25 Python
python 成功引入包但无法正常调用的解决
2020/03/09 Python
Django --Xadmin 判断登录者身份实例
2020/07/03 Python
python tqdm库的使用
2020/11/30 Python
Python基于Faker假数据构造库
2020/11/30 Python
马耳他航空公司官方网站:Air Malta
2019/05/15 全球购物
世界上最好的野生海鲜和有机食品:Vital Choice
2020/01/16 全球购物
北美最大的参茸药食商城:德成行
2020/12/06 全球购物
物理研修随笔感言
2014/02/14 职场文书
总会计师岗位职责
2014/02/19 职场文书
2015年校务公开工作总结
2015/05/26 职场文书
vue使用v-model进行跨组件绑定的基本实现方法
2021/04/28 Vue.js