python 高效去重复 支持GB级别大文件的示例代码


Posted in Python onNovember 08, 2018

如下所示:

#coding=utf-8
 
import sys, re, os
 
def getDictList(dict):
  regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
  with open(dict) as f:
    data = f.read()
    return re.findall(regx, data)
 
def rmdp(dictList):
  return list(set(dictList))
 
def fileSave(dictRmdp, out):
  with open(out, 'a') as f:
    for line in dictRmdp:
      f.write(line + '\n')
 
def main():
  try:
    dict = sys.argv[1].strip()
    out = sys.argv[2].strip()
  except Exception, e:
    print 'error:', e
    me = os.path.basename(__file__)
    print 'usage: %s <input> <output>' %me
    print 'example: %s dict.txt dict_rmdp.txt' %me
    exit()
 
  dictList = getDictList(dict)
  dictRmdp = rmdp(dictList)
  fileSave(dictRmdp, out)
   
if __name__ == '__main__':
  main()

以上这篇python 高效去重复 支持GB级别大文件的示例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python的Scrapy爬虫框架简单学习笔记
Jan 20 Python
Python简单读取json文件功能示例
Nov 30 Python
Python处理中文标点符号大集合
May 14 Python
Python实现决策树C4.5算法的示例
May 30 Python
wxPython的安装与使用教程
Aug 31 Python
django 配置阿里云OSS存储media文件的例子
Aug 20 Python
浅谈pytorch、cuda、python的版本对齐问题
Jan 15 Python
从训练好的tensorflow模型中打印训练变量实例
Jan 20 Python
Pygame的程序开始示例代码
May 07 Python
ITK 实现多张图像转成单个nii.gz或mha文件案例
Jul 01 Python
Pandas中两个dataframe的交集和差集的示例代码
Dec 13 Python
python 获取谷歌浏览器保存的密码
Jan 06 Python
python消除序列的重复值并保持顺序不变的实例
Nov 08 #Python
Django中的forms组件实例详解
Nov 08 #Python
python微元法计算函数曲线长度的方法
Nov 08 #Python
python实现简单的单变量线性回归方法
Nov 08 #Python
python/sympy求解矩阵方程的方法
Nov 08 #Python
python生成lmdb格式的文件实例
Nov 08 #Python
python实现嵌套列表平铺的两种方法
Nov 08 #Python
You might like
关于PHP二进制流 逐bit的低位在前算法(详解)
2013/06/13 PHP
Laravel 创建可以传递参数 Console服务的例子
2019/10/14 PHP
Javascript客户端脚本的设计和应用
2006/08/21 Javascript
Javascript SHA-1:Secure Hash Algorithm
2006/12/20 Javascript
js身份证验证超强脚本
2008/10/26 Javascript
让GoogleCode的SVN下的HTML文件在FireFox下正常显示.
2009/05/25 Javascript
基于jQuery的遍历同id元素 并响应事件的代码
2012/06/14 Javascript
javascript中的if语句使用介绍
2013/11/20 Javascript
实现checkbox全选、反选、取消JavaScript小脚本异常
2014/04/10 Javascript
jquery结婚电子请柬特效源码分享
2015/08/21 Javascript
js+css实现select的美化效果
2016/03/24 Javascript
基于javascript的Form表单验证
2016/12/29 Javascript
Highcharts+NodeJS搭建数据可视化平台示例
2017/01/01 NodeJs
详解node Async/Await 更好的异步编程解决方案
2018/05/10 Javascript
JS实现方形抽奖效果
2018/08/27 Javascript
微信小程序之判断页面滚动方向的示例代码
2018/08/30 Javascript
JS判断用户用的哪个浏览器实例详解
2018/10/09 Javascript
浅谈vue中关于checkbox数据绑定v-model指令的个人理解
2018/11/14 Javascript
微信小程序结合mock.js实现后台模拟及调试
2019/03/28 Javascript
在Vue项目中,防止页面被缩放和放大示例
2019/10/28 Javascript
angularjs模态框的使用代码实例
2019/12/20 Javascript
Javascript异步编程async实现过程详解
2020/04/02 Javascript
Python WSGI的深入理解
2018/08/01 Python
Python列表对象实现原理详解
2019/07/01 Python
如何基于python实现归一化处理
2020/01/20 Python
parser.add_argument中的action使用
2020/04/20 Python
Python3之乱码\xe6\x97\xa0\xe6\xb3\x95处理方式
2020/05/11 Python
GWT都有什么特性
2016/12/02 面试题
HR喜欢的自荐信格式
2013/10/08 职场文书
人力资源专员岗位职责
2014/01/30 职场文书
四年级语文教学反思
2014/02/05 职场文书
新生入学欢迎词
2015/01/26 职场文书
幼儿园教学反思范文
2016/03/02 职场文书
vue中data改变后让视图同步更新的方法
2021/03/29 Vue.js
Oracle中update和select 关联操作
2022/01/18 Oracle
Vue.js中v-for指令的用法介绍
2022/03/13 Vue.js