利用Python将文本中的中英文分离方法


Posted in Python onOctober 31, 2018

在进行文本分析、提取关键词时,新闻评论等文本通常是中英文及其他语言的混杂,若不加处理直接分析,结果往往差强人意。

下面对中英文文本进行分离做一下总结:

1、超短文本,ASCII识别。

s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
result = "".join(i for i in s if ord(i) < 256)
print(result)
out:
China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.

2、unicode编码识别

import re
s = "China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示,中国联想控股将分拆其多个业务部门在股市上市。"
uncn = re.compile(r'[\u0061-\u007a,\u0020]')
en = "".join(uncn.findall(s.lower()))
print(en)
out:
chinas legend holdings will split its several business arms to go public on stock markets, the groups president zhu linan said on tuesday

中文的编码范围是:\u4e00-\u9fa5,相应的[^\u4e00-\u9fa5]可匹配非中文。

匹配英文时,需要将空格[\u0020]加入,不然单词之间没空格了。

以上这篇利用Python将文本中的中英文分离方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python编程实现数学运算求一元二次方程的实根算法示例
Apr 02 Python
Python模块WSGI使用详解
Feb 02 Python
Python闭包执行时值的传递方式实例分析
Jun 04 Python
python中多个装饰器的执行顺序详解
Oct 08 Python
Django应用程序入口WSGIHandler源码解析
Aug 05 Python
Python图片的横坐标汉字实例
Dec 04 Python
python 的topk算法实例
Apr 02 Python
python获取响应某个字段值的3种实现方法
Apr 30 Python
python如何获得list或numpy数组中最大元素对应的索引
Nov 16 Python
python数据可视化JupyterLab实用扩展程序Mito
Nov 20 Python
python套接字socket通信
Apr 01 Python
python 实现图片特效处理
Apr 03 Python
python list格式数据excel导出方法
Oct 31 #Python
解决pyinstaller打包exe文件出现命令窗口一闪而过的问题
Oct 31 #Python
Selenium定时刷新网页的实现代码
Oct 31 #Python
python3.6利用pyinstall打包py为exe的操作实例
Oct 31 #Python
python3.6.3转化为win-exe文件发布的方法
Oct 31 #Python
使用Py2Exe for Python3创建自己的exe程序示例
Oct 31 #Python
python打包生成的exe文件运行时提示缺少模块的解决方法
Oct 31 #Python
You might like
星际争霸 Starcraft 编年史
2020/03/14 星际争霸
php array_search() 函数使用
2010/04/13 PHP
PHP gbk环境下json_dencode传送来的汉字
2012/11/13 PHP
destoon实现调用自增数字从1开始的方法
2014/08/21 PHP
PHP按指定键值对二维数组进行排序的方法
2015/12/22 PHP
Jquery 高亮显示文本中重要的关键字
2009/12/24 Javascript
Extjs Gird 支持中文拼音排序实现代码
2013/04/15 Javascript
JavaScript改变HTML元素的样式改变CSS及元素属性
2013/11/12 Javascript
js禁止页面使用右键(简单示例代码)
2013/11/13 Javascript
jqgrid 表格数据导出实例
2013/11/21 Javascript
JavaScript实现添加及删除事件的方法小结
2015/08/04 Javascript
ReactNative实现图片上传功能的示例代码
2017/07/11 Javascript
Vue.js学习笔记之常用模板语法详解
2017/07/25 Javascript
基于vue.js 2.x的虚拟滚动条的示例代码
2018/01/23 Javascript
使用原生JS实现火锅点餐小程序(面向对象思想)
2019/12/10 Javascript
vue中 v-for循环的用法详解
2020/02/19 Javascript
vue-resource 拦截器interceptors使用详解
2021/01/18 Vue.js
[37:35]DOTA2上海特级锦标赛A组资格赛#1 Secret VS MVP.Phx第二局
2016/02/25 DOTA
[04:44]DOTA2 2017全国高校联赛视频回顾
2017/08/21 DOTA
[38:39]完美世界DOTA2联赛循环赛 IO vs GXR BO2第二场 11.04
2020/11/05 DOTA
Django1.7+python 2.78+pycharm配置mysql数据库
2016/10/09 Python
python使用logging模块发送邮件代码示例
2018/01/18 Python
PyQt5每天必学之带有标签的复选框
2018/04/19 Python
Python使用爬虫爬取静态网页图片的方法详解
2018/06/05 Python
python 删除字符串中连续多个空格并保留一个的方法
2018/12/22 Python
opencv-python 读取图像并转换颜色空间实例
2019/12/09 Python
解决Django部署设置Debug=False时xadmin后台管理系统样式丢失
2020/04/07 Python
Django中ORM找出内容不为空的数据实例
2020/05/20 Python
俄罗斯的精英皮具:Wittchen
2018/01/29 全球购物
size?荷兰官方网站:英国高级运动鞋精品店
2020/07/24 全球购物
党校培训自我鉴定范文
2014/04/10 职场文书
HR必备:超全面的薪酬待遇管理方案!
2019/07/12 职场文书
网络新闻该怎么写?这些写作技巧你都知道吗?
2019/08/26 职场文书
用Python爬虫破解滑动验证码的案例解析
2021/05/06 Python
Python中常见的反爬机制及其破解方法总结
2021/06/10 Python
微软发布Windows 11今年最大更新22H2(附 ISO 镜像官方下载)
2022/09/23 数码科技