Python查找文件中包含中文的行方法


Posted in Python onDecember 19, 2018

前言

近几天在做多语言版本的时候再次发现,区分各种语言真的是一件比较困难的事情,上一次做中文提取工具的就花了不少时间,这次决定用python试一试,结果写起来发现真是方便不少,自己整理了一下方便以后查找使用。

代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# find the line of containing chinese in files

__author__ = 'AlbertS'

import re

def start_find_chinese():
 find_count = 0;
 with open('ko_untranslated.txt', 'wb') as outfile:
  with open('source_ko.txt', 'rb') as infile:
   while True:
    content = infile.readline()
    if re.match(r'(.*[\u4E00-\u9FA5]+)|([\u4E00-\u9FA5]+.*)', content.decode('utf-8')):
     outfile.write(content)
     find_count += 1;

    if not content:
     return find_count

# start to find
if __name__ == '__main__':
 count = start_find_chinese()
 print("find complete! count =", count)

原始文件

source_ko.txt文件内容

3 캐릭터 Lv.50 달성
8 캐릭터 Lv.80 달성
10 캐릭터 Lv.90 달성
...
...
2840 飞黄腾达
4841 同归于尽
8848 캐릭터 Lv.50 달

运行效果(ko_untranslated.txt文件)

2840 飞黄腾达
4841 同归于尽

总结

1. 其实这段小小的代码中包含了两个常用的功能,那就是读写文件和正则表达式。

2. 这也是两个重要的知识点,其中with操作可能防止资源泄漏,操作起来更加方便。

3. 正则表达式可是一个文字处理的利器,代码中的正则可能还不太完善,后续我会继续补充更新。

以上这篇Python查找文件中包含中文的行方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 文件操作实现代码
Oct 07 Python
深度剖析使用python抓取网页正文的源码
Jun 11 Python
详解Python 序列化Serialize 和 反序列化Deserialize
Aug 20 Python
Python判断两个对象相等的原理
Dec 12 Python
python队列通信:rabbitMQ的使用(实例讲解)
Dec 22 Python
python中virtualenvwrapper安装与使用
May 20 Python
我喜欢你 抖音表白程序python版
Apr 07 Python
python opencv 图像拼接的实现方法
Jun 27 Python
python 图片二值化处理(处理后为纯黑白的图片)
Nov 01 Python
Python新手学习函数默认参数设置
Jun 03 Python
python 爬虫爬取京东ps4售卖情况
Dec 18 Python
python生成可执行exe控制Microsip自动填写号码并拨打功能
Jun 21 Python
对python requests发送json格式数据的实例详解
Dec 19 #Python
解决Python下json.loads()中文字符出错的问题
Dec 19 #Python
python执行CMD指令,并获取返回的方法
Dec 19 #Python
python使用response.read()接收json数据的实例
Dec 19 #Python
Python通用循环的构造方法实例分析
Dec 19 #Python
Python实现对字典分别按键(key)和值(value)进行排序的方法分析
Dec 19 #Python
对json字符串与python字符串的不同之处详解
Dec 19 #Python
You might like
实用函数2
2007/11/08 PHP
tp5.1 框架数据库高级查询技巧实例总结
2020/05/25 PHP
MSN消息提示类
2006/09/05 Javascript
javascript document.execCommand() 常用解析
2009/12/14 Javascript
JQuery 操作select标签实现代码
2010/05/14 Javascript
jquery 操作DOM的基本用法分享
2012/04/05 Javascript
JavaScript 参数中的数组展开 [译]
2012/09/21 Javascript
JavaScript定时显示广告代码分享
2015/03/02 Javascript
在JavaScript应用中使用RequireJS来实现延迟加载
2015/07/01 Javascript
dul无法加载bootstrap实现unload table/user恢复
2016/09/29 Javascript
jQuery如何解决IE输入框不能输入的问题
2016/10/08 Javascript
JS实现课堂随机点名和顺序点名
2017/03/09 Javascript
nodejs利用ajax实现网页无刷新上传图片实例代码
2017/06/06 NodeJs
详解Vue.js组件可复用性的混合(mixin)方式和自定义指令
2017/09/06 Javascript
React如何将组件渲染到指定DOM节点详解
2017/09/08 Javascript
Vue中使用create-keyframe-animation与动画钩子完成复杂动画
2019/04/09 Javascript
vue实现pdf文档在线预览功能
2019/11/26 Javascript
[01:07:13]TNC vs Pain 2018国际邀请赛小组赛BO2 第一场 8.17
2018/08/20 DOTA
理解Python中的With语句
2015/02/02 Python
Python3里的super()和__class__使用介绍
2015/04/23 Python
python实现爬山算法的思路详解
2019/04/09 Python
python实现微信每日一句自动发送给喜欢的人
2019/04/29 Python
Django将默认的SQLite更换为MySQL的实现
2019/11/18 Python
基于python的列表list和集合set操作
2019/11/24 Python
解决pycharm安装第三方库失败的问题
2020/05/09 Python
html通过canvas转成base64的方法
2019/07/18 HTML / CSS
斯德哥尔摩通票:Stockholm Pass
2018/01/09 全球购物
微软加拿大官方网站:Microsoft Canada
2019/04/28 全球购物
小学安全教育材料
2014/02/17 职场文书
生日主持词
2014/03/20 职场文书
《动手做做看》教学反思
2014/04/09 职场文书
低碳环保倡议书
2014/04/14 职场文书
讲文明懂礼貌演讲稿
2014/09/11 职场文书
委托书范本格式
2019/04/18 职场文书
SQLServer2008提示评估期已过解决方案
2021/04/12 SQL Server
mysql中数据库覆盖导入的几种方式总结
2022/03/25 MySQL