利用Python将文本中的中英文分离方法


Posted in Python onOctober 31, 2018

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。

下面对中英文文本进行分离做一下总结:

1、超短文本,ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)
out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)
out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是:\u4e00-\u9fa5,相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时,需要将空格[\u0020]加入,不然单词之间没空格了。

以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python通过PIL获取图片主要颜色并和颜色库进行对比的方法
Mar 19 Python
python在ubuntu中的几种安装方法(小结)
Dec 08 Python
Tensorflow 利用tf.contrib.learn建立输入函数的方法
Feb 08 Python
详解python中的装饰器
Jul 10 Python
python之cv2与图像的载入、显示和保存实例
Dec 05 Python
Python设计模式之备忘录模式原理与用法详解
Jan 15 Python
python调用pyaudio使用麦克风录制wav声音文件的教程
Jun 26 Python
pandas数据筛选和csv操作的实现方法
Jul 02 Python
Python3 使用map()批量的转换数据类型,如str转float的实现
Nov 29 Python
python爬虫快速响应服务器的做法
Nov 24 Python
python使用pygame创建精灵Sprite
Apr 06 Python
MATLAB 全景图切割及盒图显示的实现步骤
May 14 Python
python list格式数据excel导出方法
Oct 31 #Python
解决pyinstaller打包exe文件出现命令窗口一闪而过的问题
Oct 31 #Python
Selenium定时刷新网页的实现代码
Oct 31 #Python
python3.6利用pyinstall打包py为exe的操作实例
Oct 31 #Python
python3.6.3转化为win-exe文件发布的方法
Oct 31 #Python
使用Py2Exe for Python3创建自己的exe程序示例
Oct 31 #Python
python打包生成的exe文件运行时提示缺少模块的解决方法
Oct 31 #Python
You might like
PHP写的加密函数,支持私人密钥(详细介绍)
2013/06/09 PHP
利用 fsockopen() 函数开放端口扫描器的实例
2017/08/19 PHP
自己整理的一个javascript日期处理函数
2010/10/16 Javascript
jQuery.fn和jQuery.prototype区别介绍
2013/10/05 Javascript
jquery读取xml文件实现省市县三级联动的方法
2015/05/29 Javascript
JavaScript实现定时隐藏与显示图片的方法
2015/08/06 Javascript
Document.body.scrollTop的值总为零的快速解决办法
2016/06/09 Javascript
20分钟打造属于你的Bootstrap站点
2016/07/27 Javascript
微信小程序 如何引入外部字体库iconfont的图标
2018/01/31 Javascript
vue项目webpack中Npm传递参数配置不同域名接口
2018/06/15 Javascript
bootstrapTable+ajax加载数据 refresh更新数据
2018/08/31 Javascript
关于vue的npm run dev和npm run build的区别介绍
2019/01/14 Javascript
vue移动端城市三级联动组件使用详解
2019/07/26 Javascript
JavaScript面向对象核心知识与概念归纳整理
2020/05/09 Javascript
JS跨浏览器解析XML应用过程详解
2020/10/16 Javascript
Python采用raw_input读取输入值的方法
2014/08/18 Python
python使用点操作符访问字典(dict)数据的方法
2015/03/16 Python
python模块之StringIO使用示例
2015/04/08 Python
通过mod_python配置运行在Apache上的Django框架
2015/07/22 Python
Python中第三方库Requests库的高级用法详解
2017/03/12 Python
对python实时得到鼠标位置的示例讲解
2018/10/14 Python
python 两个一样的字符串用==结果为false问题的解决
2020/03/12 Python
Python中and和or如何使用
2020/05/28 Python
keras实现多GPU或指定GPU的使用介绍
2020/06/17 Python
SmartBuyGlasses丹麦:网上购买名牌太阳镜、眼镜和隐形眼镜
2016/10/01 全球购物
一份比较全的PHP面试题
2016/07/29 面试题
我想声明一个指针并为它分配一些空间, 但却不行。这些代码有什么 问题?char *p; *p = malloc(10);
2016/10/06 面试题
遗体告别仪式主持词
2014/03/20 职场文书
评职称个人总结
2015/03/05 职场文书
2015年人力资源工作总结
2015/04/08 职场文书
2016年“5.12”护士节致辞
2015/07/31 职场文书
老兵退伍感言
2015/08/03 职场文书
公司费用报销管理制度
2015/08/04 职场文书
《三国志》赏析
2019/08/27 职场文书
聊聊Python中关于a=[[]]*3的反思
2021/06/02 Python
Java中Dijkstra(迪杰斯特拉)算法
2022/05/20 Java/Android