python 高效去重复 支持GB级别大文件的示例代码


Posted in Python onNovember 08, 2018

如下所示:

#coding=utf-8
 
import sys, re, os
 
def getDictList(dict):
  regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
  with open(dict) as f:
    data = f.read()
    return re.findall(regx, data)
 
def rmdp(dictList):
  return list(set(dictList))
 
def fileSave(dictRmdp, out):
  with open(out, 'a') as f:
    for line in dictRmdp:
      f.write(line + '\n')
 
def main():
  try:
    dict = sys.argv[1].strip()
    out = sys.argv[2].strip()
  except Exception, e:
    print 'error:', e
    me = os.path.basename(__file__)
    print 'usage: %s <input> <output>' %me
    print 'example: %s dict.txt dict_rmdp.txt' %me
    exit()
 
  dictList = getDictList(dict)
  dictRmdp = rmdp(dictList)
  fileSave(dictRmdp, out)
   
if __name__ == '__main__':
  main()

以上这篇python 高效去重复 支持GB级别大文件的示例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python持久性管理pickle模块详细介绍
Feb 18 Python
python冒泡排序简单实现方法
Jul 09 Python
Python图像灰度变换及图像数组操作
Jan 27 Python
Python编程实现微信企业号文本消息推送功能示例
Aug 21 Python
使用tensorflow实现线性svm
Sep 07 Python
python实现指定字符串补全空格、前面填充0的方法
Nov 16 Python
Python flask框架post接口调用示例
Jul 03 Python
Python assert关键字原理及实例解析
Dec 13 Python
安装PyInstaller失败问题解决
Dec 14 Python
浅谈python 调用open()打开文件时路径出错的原因
Jun 05 Python
在 Python 中使用 MQTT的方法
Aug 18 Python
python math模块的基本使用教程
Jan 16 Python
python消除序列的重复值并保持顺序不变的实例
Nov 08 #Python
Django中的forms组件实例详解
Nov 08 #Python
python微元法计算函数曲线长度的方法
Nov 08 #Python
python实现简单的单变量线性回归方法
Nov 08 #Python
python/sympy求解矩阵方程的方法
Nov 08 #Python
python生成lmdb格式的文件实例
Nov 08 #Python
python实现嵌套列表平铺的两种方法
Nov 08 #Python
You might like
我的论坛源代码(三)
2006/10/09 PHP
一个好用的分页函数
2006/11/16 PHP
PHP 登录记住密码实现思路
2013/05/07 PHP
php获取从百度搜索进入网站的关键词的详细代码
2014/01/08 PHP
php 购物车完整实现代码
2014/06/05 PHP
Ajax提交表单时验证码自动验证 php后端验证码检测
2016/07/20 PHP
php查找字符串中第一个非0的位置截取
2017/02/27 PHP
PHP利用正则表达式将相对路径转成绝对路径的方法示例
2017/02/28 PHP
js宝典学习笔记(上)
2007/01/10 Javascript
JavaScript 的方法重载效果
2009/08/07 Javascript
基于jquery插件制作左右按钮与标题文字图片切换效果
2013/11/07 Javascript
jquery+json实现数据列表分页示例代码
2013/11/15 Javascript
JavaScript中读取和保存文件实例
2014/05/08 Javascript
Jquery ajax 同步阻塞引起的UI线程阻塞问题
2015/11/17 Javascript
JavaScript知识点总结(十)之this关键字
2016/05/31 Javascript
微信小程序 地图定位简单实例
2016/10/14 Javascript
微信小程序 获取当前地理位置和经纬度实例代码
2016/12/05 Javascript
JS实现的样式切换功能tableCSS实例
2016/12/30 Javascript
js实现数组内数据的上移和下移的实例
2017/11/14 Javascript
JS实现选项卡插件的两种写法(jQuery和class)
2020/12/30 jQuery
python脚本实现查找webshell的方法
2014/07/31 Python
python实现通过shelve修改对象实例
2014/09/26 Python
python中使用xlrd、xlwt操作excel表格详解
2015/01/29 Python
django基础之数据库操作方法(详解)
2017/05/24 Python
Python对列表中的各项进行关联详解
2017/08/15 Python
Django中间件拦截未登录url实例详解
2019/09/03 Python
PyTorch之nn.ReLU与F.ReLU的区别介绍
2020/06/27 Python
一站式跨境收款解决方案:Payoneer(派安盈)
2018/09/06 全球购物
如何开发一个JQuery插件
2016/07/28 面试题
毕业生个人的自我评价优秀范文
2013/10/03 职场文书
青年创业培训欢迎词
2014/01/10 职场文书
幼儿园教师个人反思
2014/01/30 职场文书
大学生军训自我鉴定
2014/02/12 职场文书
环保建议书600字
2014/05/14 职场文书
退休欢送会主持词
2015/07/01 职场文书
Mysql InnoDB 的内存逻辑架构
2022/05/06 MySQL