python去除文件中重复的行实例


Posted in Python onJune 29, 2018

python去除文件中重复的行,我们可以设置一个一个空list,res_list,用来加入没有出现过的字符行!

如果出现在res_list,我们就认为该行句子已经重复了,可以再加入到记录重复句子的list中。

如下代码:

# -*- coding: UTF-8 -*-
#程序功能是为了完成判断文件中是否有重复句子
#并将重复句子打印出来
 
res_list = []
#f = open('F:/master/master-work/code_of_graduate/LTP_data/raw_plain.txt','r')
f = open('F:/master/master-work/code_of_graduate/chu_li_shuju/ldc-weibo-train-res.txt','r')
res_dup = []
index = 0
file_dul = open('F:/master/master-work/code_of_graduate/chu_li_shuju/ldc-weibo-train-dul.txt', 'w')
for line in f.readlines():
 index = index + 1
 if line in res_list:
  temp_str = ""
  temp_str = temp_str + str(index)     #要变为str才行
  temp_line = ''.join(line)
  temp_str = temp_str+temp_line
  #最终要变为str类型
  file_dul.write(temp_str);       #将重复的存入到文件中
 else:
  res_list.append(line)

以上这篇python去除文件中重复的行实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现代理服务功能实例
Nov 15 Python
python 计算数组中每个数字出现多少次--“Bucket”桶的思想
Dec 19 Python
python scp 批量同步文件的实现方法
Jan 03 Python
python从入门到精通 windows安装python图文教程
May 18 Python
扩展Django admin的list_filter()可使用范围方法
Aug 21 Python
Python进阶之使用selenium爬取淘宝商品信息功能示例
Sep 16 Python
python实现双色球随机选号
Jan 01 Python
解决导入django_filters不成功问题No module named 'django_filter'
Jul 15 Python
python中如何使用虚拟环境
Oct 14 Python
详解numpy1.19.4与python3.9版本冲突解决
Dec 15 Python
Python如何配置环境变量详解
May 18 Python
基于PyQt5制作一个群发邮件工具
Apr 08 Python
python获取指定字符串中重复模式最高的字符串方法
Jun 29 #Python
Python 利用内置set函数对字符串和列表进行去重的方法
Jun 29 #Python
Linux下python与C++使用dlib实现人脸检测
Jun 29 #Python
对python中两种列表元素去重函数性能的比较方法
Jun 29 #Python
Python数据持久化shelve模块用法分析
Jun 29 #Python
python 统计列表中不同元素的数量方法
Jun 29 #Python
python计算两个数的百分比方法
Jun 29 #Python
You might like
php curl的深入解析
2013/06/02 PHP
thinkPHP5框架导出Excel文件简单操作示例
2018/08/03 PHP
TP5框架页面跳转样式操作示例
2020/04/05 PHP
js中几种去掉字串左右空格的方法
2006/12/25 Javascript
javascript import css实例代码
2008/07/18 Javascript
js数组的基本用法及数组根据下标(数值或字符)移除元素
2013/10/20 Javascript
document.compatMode的CSS1compat使用介绍
2014/04/03 Javascript
javascript实现仿百度图片的瀑布流加载效果
2016/04/20 Javascript
关于javascript中限定时间内防止按钮重复点击的思路详解
2016/08/16 Javascript
Angular.JS去掉访问路径URL中的#号详解
2017/03/30 Javascript
JavaScript生成图形验证码
2020/08/24 Javascript
关于vue编译版本引入的问题的解决
2018/09/17 Javascript
2019 年编写现代 JavaScript 代码的5个小技巧(小结)
2019/01/15 Javascript
JavaScript中的 new 命令
2019/05/22 Javascript
vue.js 打包时出现空白页和路径错误问题及解决方法
2019/06/26 Javascript
layer.confirm点击第一个按钮关闭弹出框的方法
2019/09/09 Javascript
5分钟教你用nodeJS手写一个mock数据服务器的方法
2019/09/10 NodeJs
JavaScript实现简易计算器小功能
2020/10/22 Javascript
Vue使用路由钩子拦截器beforeEach和afterEach监听路由
2020/11/16 Javascript
python 编程之twisted详解及简单实例
2017/01/28 Python
Python 数据结构之旋转链表
2017/02/25 Python
Pycharm设置界面全黑的方法
2018/05/23 Python
pandas.DataFrame选取/排除特定行的方法
2018/07/03 Python
python dataframe向下向上填充,fillna和ffill的方法
2018/11/28 Python
Pycharm+Scrapy安装并且初始化项目的方法
2019/01/15 Python
Python流程控制 while循环实现解析
2019/09/02 Python
超实用的 30 段 Python 案例
2019/10/10 Python
python读取word 中指定位置的表格及表格数据
2019/10/23 Python
在python3中实现更新界面
2020/02/21 Python
pycharm中选中一个单词替换所有重复单词的实现方法
2020/11/17 Python
局领导领导班子四风对照检查材料
2014/09/27 职场文书
政风行风整改报告
2014/11/06 职场文书
廉洁自律承诺书2015
2015/01/22 职场文书
小学信息技术教学反思
2016/02/16 职场文书
干货:我将这样书写我的演讲稿!
2019/05/09 职场文书
SQL Server内存机制浅探
2022/04/06 SQL Server