python实现文本文件合并


Posted in Python onDecember 29, 2015

python合并文本文件示例代码。

python实现两个文本合并

employee文件中记录了工号和姓名

cat employee.txt:

100 Jason Smith
200 John Doe
300 Sanjay Gupta
400 Ashok Sharma

bonus文件中记录工号和工资

cat bonus.txt:

100 $5,000
200 $500
300 $3,000
400 $1,250

要求把两个文件合并并输出如下, 处理结果:

400 ashok sharma $1,250

100 jason smith $5,000
200 john doe $500
300 sanjay gupta $3,000

这个应该是要求用shell来写的,但我的shell功底不怎么样,就用python来实现了
注意,按题目的意思,在输出文件中还需要按照姓名首字母来排序的

#! /usr/bin/env python
 
#coding=utf-8
fp01=open("bonus.txt","r")
a=[]
for line01 in fp01:
a.append(line01)
fp02=open("employee.txt","r")
fc02=sorted(fp02,key=lambda x:x.split()[1])
for line02 in fc02:
i=0
while line02.split()[0]!=a[i].split()[0]:
i+=1
print "%s %s %s %s" % (line02.split()[0],line02.split()[1],line02.split()[2],a[i].split()[1])
fp01.close()
fp02.close()

我们再来看一段同样功能的 代码

# coding gbk 
# 
# author: GreatGhoul 
# email : greatghoul@gmail.com 
# blog : http://greatghoul.javaeye.com 
  
import sys,os,msvcrt 
  
def join(in_filenames, out_filename): 
  out_file = open(out_filename, 'w+') 
    
  err_files = [] 
  for file in in_filenames: 
    try: 
      in_file = open(file, 'r') 
      out_file.write(in_file.read()) 
      out_file.write('\n\n') 
      in_file.close() 
    except IOError: 
      print 'error joining', file 
      err_files.append(file) 
  out_file.close() 
  print 'joining completed. %d file(s) missed.' % len(err_files) 
  print 'output file:', out_filename 
  if len(err_files) > 0: 
    print 'missed files:' 
    print '--------------------------------' 
    for file in err_files: 
      print file 
    print '--------------------------------' 
  
if __name__ == '__main__': 
  print 'scanning...' 
  in_filenames = [] 
  file_count = 0 
  for file in os.listdir(sys.path[0]): 
    if file.lower().endswith('[all].txt'): 
      os.remove(file) 
    elif file.lower().endswith('.txt'): 
      in_filenames.append(file) 
      file_count = file_count + 1 
  if len(in_filenames) > 0: 
    print '--------------------------------' 
    print '\n'.join(in_filenames) 
    print '--------------------------------' 
    print '%d part(s) in total.' % file_count 
    book_name = raw_input('enter the book name: ') 
    print 'joining...' 
    join(in_filenames, book_name + '[ALL].TXT') 
  else: 
    print 'nothing found.' 
  msvcrt.getch()

最后我们再来看一个小编遇到的情况:

今天汇编的时候在阿甘的博客里面看到了一部小说《疯狂的程序员》,于是网上搜了下准备放到手机里闲时看看,无奈下载后发现是分章节的txt文本,一共有87个文件,考虑到阅读起来不是很方便,于是想找个现成的工具合并txt文本。

结果尝试了几个工具后觉得合并效果都不给力啊,于是打算自己动手。其实cmd的命令"type *.txt >> crazy-programmer.txt"还是很有效果的,然而合并后的txt文件却十分庞大,所以我还是自己写了一个脚本完成了合并。

说明:由于我下载的87个txt文件的字符编码格式都不统一,所以我用chardet模块判断字符编码类型后再用codecs模块的codecs.open功能解决了编码问题。如果直接用file的open打开txt文件的话,在UCS-2 Little Endian的编码情况下,file.read()遇到中文的冒号(即“:”)后会无法读取冒号以后的内容,所以需要用codecs.open(path,'r',encoding)来解决。

如果还有问题可以留言,代码如下:

#!coding: cp936 
import codecs, chardet 
 
def fileopen(filename): 
  f = open(filename, 'r') 
  s = f.read() 
  if(chardet.detect(s)['encoding'] == 'UTF-16LE'): 
    f.close() 
    f = codecs.open(filename, 'r', 'utf-16-le')     
    data = f.read().encode('gb2312', 'ignore') 
    f.close() 
  elif(chardet.detect(s)['encoding'] == 'GB2312'): 
    data = s 
    f.close() 
  return data 
 
i = 1 
while i <=87: 
  if(i < 10): 
    filename = '0'+str(i)+'.txt' 
  else: 
    filename = str(i)+'.txt' 
  text = fileopen(filename) 
  file('crazy-p.txt', 'a+').write(text) 
  i = i+1

其中,chardet模块需要下载安装,脚本还可以改进以适应更多种情况,我就懒了。

Python 相关文章推荐
python获取元素在数组中索引号的方法
Jul 15 Python
python之Socket网络编程详解
Sep 29 Python
shell命令行,一键创建 python 模板文件脚本方法
Mar 20 Python
Python实现获取邮箱内容并解析的方法示例
Jun 16 Python
pycharm 在windows上编辑代码用linux执行配置的方法
Oct 27 Python
利用Python求阴影部分的面积实例代码
Dec 05 Python
这可能是最好玩的python GUI入门实例(推荐)
Jul 19 Python
Python字典的概念及常见应用实例详解
Oct 30 Python
让你的Python代码实现类型提示功能
Nov 19 Python
记录模型训练时loss值的变化情况
Jun 16 Python
pycharm激活码2020最新分享适用pycharm2020最新版亲测可用
Nov 22 Python
基于Python 函数和方法的区别说明
Mar 24 Python
Python验证码识别处理实例
Dec 28 #Python
在Windows系统上搭建Nginx+Python+MySQL环境的教程
Dec 25 #Python
Windows系统下使用flup搭建Nginx和Python环境的方法
Dec 25 #Python
在Linux系统上通过uWSGI配置Nginx+Python环境的教程
Dec 25 #Python
Linux系统上Nginx+Python的web.py与Django框架环境
Dec 25 #Python
Linux下将Python的Django项目部署到Apache服务器
Dec 24 #Python
在Linux系统上部署Apache+Python+Django+MySQL环境
Dec 24 #Python
You might like
php简单静态页生成过程
2008/03/27 PHP
解析php中mysql_connect与mysql_pconncet的区别详解
2013/05/15 PHP
destoon安装出现Internal Server Error的解决方法
2014/06/21 PHP
PHP实现自动识别Restful API的返回内容类型
2015/02/07 PHP
PHP扩展开发入门教程
2015/02/26 PHP
又拍云异步上传实例教程详解
2016/04/19 PHP
OAuth认证协议中的HMACSHA1加密算法(实例)
2017/10/25 PHP
JavaScript 全角转半角部分
2009/10/28 Javascript
Jsonp 跨域的原理以及Jquery的解决方案
2011/06/27 Javascript
js中document.write使用过程中的一点疑问解答
2014/03/20 Javascript
聊一聊JavaScript作用域和作用域链
2016/05/03 Javascript
浅谈javascript中的 “ &amp;&amp; ” 和 “ || ”
2017/02/02 Javascript
ES6学习笔记之Set和Map数据结构详解
2017/04/07 Javascript
浅谈Vue2.0父子组件间事件派发机制
2018/01/08 Javascript
JS扩展String.prototype.format字符串拼接的功能
2018/03/09 Javascript
解决VUE 在IE下出现ReferenceError: Promise未定义的问题
2020/11/07 Javascript
利用Python绘制MySQL数据图实现数据可视化
2015/03/30 Python
Python字典操作简明总结
2015/04/13 Python
python中PIL安装简单教程
2016/04/21 Python
详解Python3中字符串中的数字提取方法
2017/01/14 Python
联想台湾官网:Lenovo TW
2018/05/09 全球购物
导游实习生自荐书
2014/01/28 职场文书
感恩母亲节活动方案
2014/03/04 职场文书
理财投资建议书
2014/03/12 职场文书
劳动竞赛口号
2014/06/16 职场文书
群众路线教育实践活动剖析材料
2014/09/30 职场文书
同意离婚答辩状
2015/05/22 职场文书
2015年度酒店客房部工作总结
2015/05/25 职场文书
2015银行年终工作总结范文
2015/05/26 职场文书
小学中队委竞选稿
2015/11/20 职场文书
小学新课改心得体会
2016/01/22 职场文书
mysql在项目中怎么选事务隔离级别
2021/05/25 MySQL
关于python中readlines函数的参数hint的相关知识总结
2021/06/24 Python
手把手教你导入Go语言第三方库
2021/08/04 Golang
唤醒紫霞仙子,携手再游三界!大话手游X《大话西游》电影合作专属剧情任务
2022/04/03 其他游戏
阿里云服务器Ubuntu 20.04上安装Odoo 15
2022/05/20 Servers