对python读写文件去重、RE、set的使用详解


Posted in Python onDecember 11, 2018

如下所示:

# -*- coding:utf-8 -*-
 
from datetime import datetime
import re
 
 
def Main():
 sourcr_dir = '/data/u_lx_data/fudan/muying/muying_11yue_all.txt'
 target_dir = '/data/u_lx_data/fudan/muying/python/uid_regular_get.txt'
 
 uset = set() #去重
 
 print("开始。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
 
 with open(target_dir, 'w+') as f_write:
  with open(sourcr_dir, 'r') as f_scorce:
   for line in f_scorce:
   line = line.strip().split("\t")
   # 宝宝树
   if line[2] == 'babytree.com':
    uidList = re.findall(r'.*NL=u%02(u\d+)', line[3], re.I)
    if uidList:
     # 去重代码
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("宝宝树已完成")
 
   # 柚宝宝
   elif line[2] == 'youzibuy.com':
    if line[4].find("yunqi.youzibuy.com/tae_top_notify") != -1:
     uidList = re.findall(r'.*myuid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("柚宝宝已完成")
 
   # 妈妈帮
   elif line[2] == 'mmbang.com':
    uidList = re.findall(r'.*uid=(\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("妈妈帮已完成")
 
   # 妈妈网
   elif line[2] == 'mama.cn':
    if line[4].find("mapi.mama.cn/feed/users/show") != -1:
     uidList = re.findall(r'.*friend_uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
    if line[4].find("mamaquan/mmq_thread") != -1:
     uidList = re.findall(r'.*uid=(\d+)', line[4], re.I)
     if uidList:
      if uidList[0] not in uset:
       f_write.write(uidList[0] + "\n")
       uset.add(uidList[0])
       print("妈妈网已完成")
 
   # 育儿网
   elif line[2] == 'ci123.com':
    uidList = re.findall(r'.*ci123js=([a-zA-Z]+\d+)', line[3], re.I)
    if uidList:
     if uidList[0] not in uset:
      f_write.write(uidList[0] + "\n")
      uset.add(uidList[0])
      print("育儿网已完成")
 
 print("完成。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
if __name__ == "__main__":
 Main()

以上这篇对python读写文件去重、RE、set的使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python的Django框架可适配的各种数据库介绍
Jul 15 Python
Python实现JSON反序列化类对象的示例
Jan 31 Python
对Python 内建函数和保留字详解
Oct 15 Python
对python读写文件去重、RE、set的使用详解
Dec 11 Python
Python Django 添加首页尾页上一页下一页代码实例
Aug 21 Python
Python利用matplotlib绘制约数个数统计图示例
Nov 26 Python
pytorch绘制并显示loss曲线和acc曲线,LeNet5识别图像准确率
Jan 02 Python
关于TensorFlow新旧版本函数接口变化详解
Feb 10 Python
利用python中集合的唯一性实现去重
Feb 11 Python
pytorch 移动端部署之helloworld的使用
Oct 30 Python
装上这 14 个插件后,PyCharm 真的是无敌的存在
Jan 11 Python
python单例模式的应用场景实例讲解
Feb 24 Python
python版本五子棋的实现代码
Dec 11 #Python
python提取具有某种特定字符串的行数据方法
Dec 11 #Python
Python面向对象基础入门之编码细节与注意事项
Dec 11 #Python
Python面向对象基础入门之设置对象属性
Dec 11 #Python
python提取包含关键字的整行数据方法
Dec 11 #Python
django开发post接口简单案例,获取参数值的方法
Dec 11 #Python
python面向对象入门教程之从代码复用开始(一)
Dec 11 #Python
You might like
GD输出汉字的函数的分析
2006/10/09 PHP
正确的PHP匹配UTF-8中文的正则表达式
2015/05/13 PHP
PHP中把错误日志保存在系统日志中(Windows系统)
2015/06/23 PHP
PHP面向对象五大原则之依赖倒置原则(DIP)详解
2018/04/08 PHP
Extjs学习笔记之三 extjs form更多的表单项
2010/01/07 Javascript
基于JQuery实现相同内容合并单元格的代码
2011/01/12 Javascript
关于在IE下的一个安全BUG --可用于跟踪用户的系统鼠标位置
2013/04/17 Javascript
javascript预加载图片、css、js的方法示例介绍
2013/10/14 Javascript
现代 JavaScript 开发编程风格Idiomatic.js指南中文版
2014/05/28 Javascript
编写简单的jQuery提示插件
2014/12/21 Javascript
JavaScript继承模式粗探
2016/01/12 Javascript
jQuery获得字体颜色16位码的方法
2016/02/20 Javascript
jQuery实现微信长按识别二维码功能
2016/08/26 Javascript
Bootstrap table使用方法详细介绍
2016/12/09 Javascript
Angular开发者指南之入门介绍
2017/03/05 Javascript
JS实现复选框的全选和批量删除功能
2017/04/05 Javascript
jquery dataTable 后台加载数据并分页实例代码
2017/06/07 jQuery
Vue 将后台传过来的带html字段的字符串转换为 HTML
2018/03/29 Javascript
vue实现前台列表数据过滤搜索、分页效果
2019/05/28 Javascript
vscode调试node.js的实现方法
2020/03/22 Javascript
Python __setattr__、 __getattr__、 __delattr__、__call__用法示例
2015/03/06 Python
python 写的一个爬虫程序源码
2016/02/28 Python
python实现把二维列表变为一维列表的方法分析
2019/10/08 Python
Python笔记之facade模式
2019/11/20 Python
HTML5 图片预加载的示例代码
2020/03/25 HTML / CSS
奥地利网上书店:Weltbild
2017/07/14 全球购物
澳洲健康食品网上商店:Aussie Health Products
2018/06/15 全球购物
尤为Wconcept中国官网:韩国设计师品牌服饰
2019/01/10 全球购物
彪马荷兰官网:PUMA荷兰
2019/05/08 全球购物
一套英文Java笔试题面试题
2016/04/21 面试题
地球一小时宣传标语
2014/06/24 职场文书
纪念九一八事变演讲稿:牢记历史,捍卫主权
2014/09/14 职场文书
2016年猴年新春致辞
2015/08/01 职场文书
JavaScript控制台的更多功能
2021/04/28 Javascript
一篇文章带你学习Mybatis-Plus(新手入门)
2021/08/02 Java/Android
Python3使用Qt5来实现简易的五子棋小游戏
2022/05/02 Python