Python查找文件中包含中文的行方法


Posted in Python onDecember 19, 2018

前言

近几天在做多语言版本的时候再次发现,区分各种语言真的是一件比较困难的事情,上一次做中文提取工具的就花了不少时间,这次决定用python试一试,结果写起来发现真是方便不少,自己整理了一下方便以后查找使用。

代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# find the line of containing chinese in files

__author__ = 'AlbertS'

import re

def start_find_chinese():
 find_count = 0;
 with open('ko_untranslated.txt', 'wb') as outfile:
  with open('source_ko.txt', 'rb') as infile:
   while True:
    content = infile.readline()
    if re.match(r'(.*[\u4E00-\u9FA5]+)|([\u4E00-\u9FA5]+.*)', content.decode('utf-8')):
     outfile.write(content)
     find_count += 1;

    if not content:
     return find_count

# start to find
if __name__ == '__main__':
 count = start_find_chinese()
 print("find complete! count =", count)

原始文件

source_ko.txt文件内容

3 캐릭터 Lv.50 달성
8 캐릭터 Lv.80 달성
10 캐릭터 Lv.90 달성
...
...
2840 飞黄腾达
4841 同归于尽
8848 캐릭터 Lv.50 달

运行效果(ko_untranslated.txt文件)

2840 飞黄腾达
4841 同归于尽

总结

1. 其实这段小小的代码中包含了两个常用的功能,那就是读写文件和正则表达式。

2. 这也是两个重要的知识点,其中with操作可能防止资源泄漏,操作起来更加方便。

3. 正则表达式可是一个文字处理的利器,代码中的正则可能还不太完善,后续我会继续补充更新。

以上这篇Python查找文件中包含中文的行方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
详解Python中的元组与逻辑运算符
Oct 13 Python
python下os模块强大的重命名方法renames详解
Mar 07 Python
Tornado Web Server框架编写简易Python服务器
Jul 28 Python
Python使用matplotlib绘制三维图形示例
Aug 25 Python
python实现一组典型数据格式转换
Dec 15 Python
Windows 安装 Anaconda3+PyCharm的方法步骤
Jun 13 Python
Pandas的read_csv函数参数分析详解
Jul 02 Python
python中的列表与元组的使用
Aug 08 Python
Python Web框架之Django框架cookie和session用法分析
Aug 16 Python
python实现将range()函数生成的数字存储在一个列表中
Apr 02 Python
Python使用windows设置定时执行脚本
Nov 12 Python
Python命令行参数定义及需要注意的地方
Nov 30 Python
对python requests发送json格式数据的实例详解
Dec 19 #Python
解决Python下json.loads()中文字符出错的问题
Dec 19 #Python
python执行CMD指令,并获取返回的方法
Dec 19 #Python
python使用response.read()接收json数据的实例
Dec 19 #Python
Python通用循环的构造方法实例分析
Dec 19 #Python
Python实现对字典分别按键(key)和值(value)进行排序的方法分析
Dec 19 #Python
对json字符串与python字符串的不同之处详解
Dec 19 #Python
You might like
第4章 数据处理-php数组的处理-郑阿奇
2011/07/04 PHP
PHP删除目录及目录下所有文件的方法详解
2013/06/06 PHP
Yii2框架引用bootstrap中日期插件yii2-date-picker的方法
2016/01/09 PHP
详解php用curl调用接口方法,get和post两种方式
2017/01/13 PHP
PHP中关键字interface和implements详解
2017/06/14 PHP
php下载远程大文件(获取远程文件大小)的实例
2017/06/17 PHP
PHPCrawl爬虫库实现抓取酷狗歌单的方法示例
2017/12/21 PHP
Laravel5.5 实现后台管理登录的方法(自定义用户表登录)
2019/09/30 PHP
jquery中动态效果小结
2010/12/16 Javascript
使用javascript控制cookie显示和隐藏背景图
2014/02/12 Javascript
javascript面向对象之定义成员方法实例分析
2015/01/13 Javascript
JavaScript获取URL汇总
2015/06/08 Javascript
javascript数组去重的六种方法汇总
2015/08/16 Javascript
jquery mobile界面数据刷新的实现方法
2016/05/28 Javascript
JQuery form表单提交前验证单选框是否选中、删除记录时验证经验总结(整理)
2017/06/09 jQuery
详解Vue学习笔记进阶篇之列表过渡及其他
2017/07/17 Javascript
Node.js中使用mongoose操作mongodb数据库的方法
2017/09/12 Javascript
JS Thunk 函数的含义和用法实例总结
2020/04/08 Javascript
小程序实现密码输入框
2020/11/16 Javascript
[09:31]2016国际邀请赛中国区预选赛Yao赛后采访 答题送礼
2016/06/27 DOTA
在Python中使用M2Crypto模块实现AES加密的教程
2015/04/08 Python
Linux下通过python访问MySQL、Oracle、SQL Server数据库的方法
2016/04/23 Python
python分布式环境下的限流器的示例
2017/10/26 Python
python3 中文乱码与默认编码格式设定方法
2018/10/31 Python
django序列化时使用外键的真实值操作
2020/07/15 Python
Python中读取文件名中的数字的实例详解
2020/12/25 Python
Html5应用程序缓存(Cache manifest)
2018/06/04 HTML / CSS
香港通票:Hong Kong Pass
2019/02/26 全球购物
SQL Server里面什么样的视图才能创建索引
2015/04/17 面试题
会计主管岗位职责
2014/01/03 职场文书
珠宝店促销方案
2014/03/21 职场文书
美术指导助理求职信
2014/04/20 职场文书
2014高中生入党思想汇报范文
2014/09/13 职场文书
大学生自我评价200字(4篇)
2014/09/17 职场文书
泰山导游词
2015/02/02 职场文书
筑梦中国心得体会
2016/01/18 职场文书