python实现文本文件合并


Posted in Python onDecember 29, 2015

python合并文本文件示例代码。

python实现两个文本合并

employee文件中记录了工号和姓名

cat employee.txt:

100 Jason Smith
200 John Doe
300 Sanjay Gupta
400 Ashok Sharma

bonus文件中记录工号和工资

cat bonus.txt:

100 $5,000
200 $500
300 $3,000
400 $1,250

要求把两个文件合并并输出如下, 处理结果:

400 ashok sharma $1,250

100 jason smith $5,000
200 john doe $500
300 sanjay gupta $3,000

这个应该是要求用shell来写的,但我的shell功底不怎么样,就用python来实现了
注意,按题目的意思,在输出文件中还需要按照姓名首字母来排序的

#! /usr/bin/env python
 
#coding=utf-8
fp01=open("bonus.txt","r")
a=[]
for line01 in fp01:
a.append(line01)
fp02=open("employee.txt","r")
fc02=sorted(fp02,key=lambda x:x.split()[1])
for line02 in fc02:
i=0
while line02.split()[0]!=a[i].split()[0]:
i+=1
print "%s %s %s %s" % (line02.split()[0],line02.split()[1],line02.split()[2],a[i].split()[1])
fp01.close()
fp02.close()

我们再来看一段同样功能的 代码

# coding gbk 
# 
# author: GreatGhoul 
# email : greatghoul@gmail.com 
# blog : http://greatghoul.javaeye.com 
  
import sys,os,msvcrt 
  
def join(in_filenames, out_filename): 
  out_file = open(out_filename, 'w+') 
    
  err_files = [] 
  for file in in_filenames: 
    try: 
      in_file = open(file, 'r') 
      out_file.write(in_file.read()) 
      out_file.write('\n\n') 
      in_file.close() 
    except IOError: 
      print 'error joining', file 
      err_files.append(file) 
  out_file.close() 
  print 'joining completed. %d file(s) missed.' % len(err_files) 
  print 'output file:', out_filename 
  if len(err_files) > 0: 
    print 'missed files:' 
    print '--------------------------------' 
    for file in err_files: 
      print file 
    print '--------------------------------' 
  
if __name__ == '__main__': 
  print 'scanning...' 
  in_filenames = [] 
  file_count = 0 
  for file in os.listdir(sys.path[0]): 
    if file.lower().endswith('[all].txt'): 
      os.remove(file) 
    elif file.lower().endswith('.txt'): 
      in_filenames.append(file) 
      file_count = file_count + 1 
  if len(in_filenames) > 0: 
    print '--------------------------------' 
    print '\n'.join(in_filenames) 
    print '--------------------------------' 
    print '%d part(s) in total.' % file_count 
    book_name = raw_input('enter the book name: ') 
    print 'joining...' 
    join(in_filenames, book_name + '[ALL].TXT') 
  else: 
    print 'nothing found.' 
  msvcrt.getch()

最后我们再来看一个小编遇到的情况:

今天汇编的时候在阿甘的博客里面看到了一部小说《疯狂的程序员》,于是网上搜了下准备放到手机里闲时看看,无奈下载后发现是分章节的txt文本,一共有87个文件,考虑到阅读起来不是很方便,于是想找个现成的工具合并txt文本。

结果尝试了几个工具后觉得合并效果都不给力啊,于是打算自己动手。其实cmd的命令"type *.txt >> crazy-programmer.txt"还是很有效果的,然而合并后的txt文件却十分庞大,所以我还是自己写了一个脚本完成了合并。

说明:由于我下载的87个txt文件的字符编码格式都不统一,所以我用chardet模块判断字符编码类型后再用codecs模块的codecs.open功能解决了编码问题。如果直接用file的open打开txt文件的话,在UCS-2 Little Endian的编码情况下,file.read()遇到中文的冒号(即“:”)后会无法读取冒号以后的内容,所以需要用codecs.open(path,'r',encoding)来解决。

如果还有问题可以留言,代码如下:

#!coding: cp936 
import codecs, chardet 
 
def fileopen(filename): 
  f = open(filename, 'r') 
  s = f.read() 
  if(chardet.detect(s)['encoding'] == 'UTF-16LE'): 
    f.close() 
    f = codecs.open(filename, 'r', 'utf-16-le')     
    data = f.read().encode('gb2312', 'ignore') 
    f.close() 
  elif(chardet.detect(s)['encoding'] == 'GB2312'): 
    data = s 
    f.close() 
  return data 
 
i = 1 
while i <=87: 
  if(i < 10): 
    filename = '0'+str(i)+'.txt' 
  else: 
    filename = str(i)+'.txt' 
  text = fileopen(filename) 
  file('crazy-p.txt', 'a+').write(text) 
  i = i+1

其中,chardet模块需要下载安装,脚本还可以改进以适应更多种情况,我就懒了。

Python 相关文章推荐
Python中的引用和拷贝浅析
Nov 22 Python
Python入门之三角函数tan()函数实例详解
Nov 08 Python
python3 遍历删除特定后缀名文件的方法
Apr 23 Python
Python 读取用户指令和格式化打印实现解析
Sep 02 Python
python3 常见解密加密算法实例分析【base64、MD5等】
Dec 19 Python
linux 下python多线程递归复制文件夹及文件夹中的文件
Jan 02 Python
Python StringIO如何在内存中读写str
Jan 07 Python
python圣诞树编写实例详解
Feb 13 Python
Python requests.post方法中data与json参数区别详解
Apr 30 Python
python 读txt文件,按‘,’分割每行数据操作
Jul 05 Python
Python+Matplotlib图像上指定坐标的位置添加文本标签与注释
Apr 11 Python
微信小程序调用python模型
Apr 21 Python
Python验证码识别处理实例
Dec 28 #Python
在Windows系统上搭建Nginx+Python+MySQL环境的教程
Dec 25 #Python
Windows系统下使用flup搭建Nginx和Python环境的方法
Dec 25 #Python
在Linux系统上通过uWSGI配置Nginx+Python环境的教程
Dec 25 #Python
Linux系统上Nginx+Python的web.py与Django框架环境
Dec 25 #Python
Linux下将Python的Django项目部署到Apache服务器
Dec 24 #Python
在Linux系统上部署Apache+Python+Django+MySQL环境
Dec 24 #Python
You might like
php使用百度天气接口示例
2014/04/22 PHP
php smarty模板引擎的6个小技巧
2014/04/24 PHP
php实现信用卡校验位算法THE LUHN MOD-10示例
2014/05/07 PHP
thinkphp微信开发(消息加密解密)
2015/12/02 PHP
关于PHP 如何用 curl 读取 HTTP chunked 数据
2016/02/26 PHP
PHP中模拟链表和链表的基本操作示例
2016/02/27 PHP
实现php删除链表中重复的结点
2018/09/27 PHP
基于jQuery的可以控制左右滚动及自动滚动效果的代码
2010/07/25 Javascript
JavaScript中常见的字符串操作函数及用法汇总
2015/05/04 Javascript
jquery取消事件冒泡的三种方法(推荐)
2016/05/28 Javascript
jQuery编写网页版2048小游戏
2017/01/06 Javascript
vue Element左侧无限级菜单实现
2020/06/10 Javascript
[01:19]2014DOTA2国际邀请赛 采访TITAN战队ohaiyo 能赢DK很幸运
2014/07/12 DOTA
[06:07]DOTA2-DPC中国联赛 正赛 Ehome vs VG 选手采访
2021/03/11 DOTA
python生成指定尺寸缩略图的示例
2014/05/07 Python
详解python进行mp3格式判断
2016/12/23 Python
python和ruby,我选谁?
2017/09/13 Python
python3 requests中使用ip代理池随机生成ip的实例
2018/05/07 Python
在IPython中进行Python程序执行时间的测量方法
2018/11/01 Python
Python实现图片添加文字
2019/11/26 Python
手动安装python3.6的操作过程详解
2020/01/13 Python
Python中remove漏删和索引越界问题的解决
2020/03/18 Python
大数据分析用java还是Python
2020/07/06 Python
如何让python的运行速度得到提升
2020/07/08 Python
Python应用自动化部署工具Fabric原理及使用解析
2020/11/30 Python
介绍一下write命令
2012/09/24 面试题
linux面试题参考答案(10)
2013/11/04 面试题
酒店前台接待岗位职责
2013/12/03 职场文书
初中音乐教学反思
2014/01/12 职场文书
餐饮营销方案
2014/02/23 职场文书
安全技术说明书
2014/05/09 职场文书
优秀毕业生找工作自荐信
2014/06/23 职场文书
2015年度村委会工作总结
2015/04/29 职场文书
开票证明
2015/06/23 职场文书
如何利用python和DOS获取wifi密码
2021/03/31 Python
SQL Server中T-SQL标识符介绍与无排序生成序号的方法
2022/05/25 SQL Server