Python查找文件中包含中文的行方法


Posted in Python onDecember 19, 2018

前言

近几天在做多语言版本的时候再次发现,区分各种语言真的是一件比较困难的事情,上一次做中文提取工具的就花了不少时间,这次决定用python试一试,结果写起来发现真是方便不少,自己整理了一下方便以后查找使用。

代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# find the line of containing chinese in files

__author__ = 'AlbertS'

import re

def start_find_chinese():
 find_count = 0;
 with open('ko_untranslated.txt', 'wb') as outfile:
  with open('source_ko.txt', 'rb') as infile:
   while True:
    content = infile.readline()
    if re.match(r'(.*[\u4E00-\u9FA5]+)|([\u4E00-\u9FA5]+.*)', content.decode('utf-8')):
     outfile.write(content)
     find_count += 1;

    if not content:
     return find_count

# start to find
if __name__ == '__main__':
 count = start_find_chinese()
 print("find complete! count =", count)

原始文件

source_ko.txt文件内容

3 캐릭터 Lv.50 달성
8 캐릭터 Lv.80 달성
10 캐릭터 Lv.90 달성
...
...
2840 飞黄腾达
4841 同归于尽
8848 캐릭터 Lv.50 달

运行效果(ko_untranslated.txt文件)

2840 飞黄腾达
4841 同归于尽

总结

1. 其实这段小小的代码中包含了两个常用的功能,那就是读写文件和正则表达式。

2. 这也是两个重要的知识点,其中with操作可能防止资源泄漏,操作起来更加方便。

3. 正则表达式可是一个文字处理的利器,代码中的正则可能还不太完善,后续我会继续补充更新。

以上这篇Python查找文件中包含中文的行方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python3读取UTF-8文件及统计文件行数的方法
May 22 Python
python导入时小括号大作用
Jan 10 Python
Python之web模板应用
Dec 26 Python
python实现数独游戏 java简单实现数独游戏
Mar 30 Python
Python tkinter的grid布局及Text动态显示方法
Oct 11 Python
DRF跨域后端解决之django-cors-headers的使用
Jan 27 Python
python 阶乘累加和的实例
Feb 01 Python
在cmd中查看python的安装路径方法
Jul 03 Python
django数据模型on_delete, db_constraint的使用详解
Dec 24 Python
基于python3的socket聊天编程
Feb 17 Python
获取python运行输出的数据并解析存为dataFrame实例
Jul 07 Python
如何用Anaconda搭建虚拟环境并创建Django项目
Aug 02 Python
对python requests发送json格式数据的实例详解
Dec 19 #Python
解决Python下json.loads()中文字符出错的问题
Dec 19 #Python
python执行CMD指令,并获取返回的方法
Dec 19 #Python
python使用response.read()接收json数据的实例
Dec 19 #Python
Python通用循环的构造方法实例分析
Dec 19 #Python
Python实现对字典分别按键(key)和值(value)进行排序的方法分析
Dec 19 #Python
对json字符串与python字符串的不同之处详解
Dec 19 #Python
You might like
Php Cookie的一个使用注意点
2008/11/08 PHP
PHP常用开发函数解析之数组篇[未完结]
2012/07/30 PHP
老司机传授Ubuntu下Apache+PHP+MySQL环境搭建攻略
2016/03/20 PHP
Laravel5.1数据库连接、创建数据库、创建model及创建控制器的方法
2016/03/29 PHP
laravel获取不到session的三种解决办法【推荐】
2018/09/16 PHP
TP5框架实现一次选择多张图片并预览的方法示例
2020/04/04 PHP
window.parent调用父框架时 ie跟火狐不兼容问题
2009/07/30 Javascript
关于jQuery的inArray 方法介绍
2011/10/08 Javascript
cument.execCommand()用法深入理解
2012/12/04 Javascript
左侧是表头的JS表格控件(自写,网上没有的)
2013/06/04 Javascript
Javascript delete 引用类型对象
2013/11/01 Javascript
JavaScript设置表单上传时文件个数的方法
2015/08/11 Javascript
JS组件Bootstrap Select2使用方法解析
2016/05/30 Javascript
bootstrap中使用google prettify让代码高亮的方法
2016/10/21 Javascript
Bootstrap table两种分页示例
2016/12/23 Javascript
微信小程序 解决请求服务器手机预览请求不到数据的方法
2017/01/04 Javascript
vue2笔记 — vue-router路由懒加载的实现
2017/03/03 Javascript
基于require.js的使用(实例讲解)
2017/09/07 Javascript
微信小程序页面间跳转传参方式总结
2019/06/13 Javascript
微信小程序开发之map地图组件定位并手动修改位置偏差
2019/08/17 Javascript
Vue3 响应式侦听与计算的实现
2020/11/11 Javascript
Python计算程序运行时间的方法
2014/12/13 Python
浅析Python3中的对象垃圾收集机制
2019/06/06 Python
python绘图模块matplotlib示例详解
2019/07/26 Python
matplotlib.pyplot.matshow 矩阵可视化实例
2020/06/16 Python
用python爬虫批量下载pdf的实现
2020/12/01 Python
Python读取ini配置文件传参的简单示例
2021/01/05 Python
德国富尔达运动鞋店:43einhalb
2020/12/25 全球购物
后勤部经理岗位职责
2014/02/23 职场文书
企业文化宣传标语
2014/06/09 职场文书
国际金融专业自荐信
2014/07/05 职场文书
竞选班干部演讲稿400字
2014/08/20 职场文书
四风问题对照检查整改措施思想报告
2014/10/05 职场文书
幼儿园体操比赛口号
2015/12/25 职场文书
CSS Transition通过改变Height实现展开收起元素
2021/08/07 HTML / CSS
Python中requests库的用法详解
2022/06/05 Python