Python英文文本分词(无空格)模块wordninja的使用实例


Posted in Python onFebruary 20, 2019

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
在Python中使用SimpleParse模块进行解析的教程
Apr 11 Python
深入讲解Python中的迭代器和生成器
Oct 26 Python
python基础入门学习笔记(Python环境搭建)
Jan 13 Python
python开发环境PyScripter中文乱码问题解决方案
Sep 11 Python
python爬虫入门教程--利用requests构建知乎API(三)
May 25 Python
Python实现pdf文档转txt的方法示例
Jan 19 Python
Python中多个数组行合并及列合并的方法总结
Apr 12 Python
python钉钉机器人运维脚本监控实例
Feb 20 Python
python 处理微信对账单数据的实例代码
Jul 19 Python
python验证码图片处理(二值化)
Nov 01 Python
python多进程下的生产者和消费者模型
May 07 Python
python 实现数据库中数据添加、查询与更新的示例代码
Dec 07 Python
Python基于datetime或time模块分别获取当前时间戳的方法实例
Feb 19 #Python
Python子类继承父类构造函数详解
Feb 19 #Python
Python 隐藏输入密码时屏幕回显的实例
Feb 19 #Python
Python3标准库总结
Feb 19 #Python
Python语言检测模块langid和langdetect的使用实例
Feb 19 #Python
对python周期性定时器的示例详解
Feb 19 #Python
Python3数字求和的实例
Feb 19 #Python
You might like
PHP新手上路(十二)
2006/10/09 PHP
php检查页面是否被百度收录
2015/10/28 PHP
一种JavaScript的设计模式
2006/11/22 Javascript
仿校内登陆框,精美,给那些很厉害但是没有设计天才的程序员
2008/11/24 Javascript
从零开始学习jQuery (十一) 实战表单验证与自动完成提示插件
2011/02/23 Javascript
解决jquery异步按一定的时间间隔刷新问题
2012/12/10 Javascript
javaScript面向对象继承方法经典实现
2013/08/20 Javascript
JS取文本框中最小值的简单实例
2013/11/29 Javascript
Javascript基础教程之argument 详解
2015/01/18 Javascript
javascript实现图片延迟加载方法汇总(三种方法)
2015/08/27 Javascript
jquery select2的使用心得(推荐)
2016/12/04 Javascript
使用JS在浏览器中判断当前网络连接状态的几种方法
2017/05/05 Javascript
Angular4项目中添加i18n国际化插件ngx-translate的步骤详解
2017/07/02 Javascript
搭建element-ui的Vue前端工程操作实例
2018/02/23 Javascript
layui的table中显示图片方法
2018/08/17 Javascript
原生js实现获取form表单数据代码实例
2019/03/27 Javascript
JavaScript学习教程之cookie与webstorage
2019/06/23 Javascript
Node如何后台数据库使用增删改查功能
2019/11/21 Javascript
Python中类型检查的详细介绍
2017/02/13 Python
基于Django的ModelForm组件(详解)
2017/12/07 Python
pycharm 配置远程解释器的方法
2018/10/28 Python
python将txt等文件中的数据读为numpy数组的方法
2018/12/22 Python
python实现美团订单推送到测试环境,提供便利操作示例
2019/08/09 Python
Python 、Pycharm、Anaconda三者的区别与联系、安装过程及注意事项
2019/10/11 Python
python3 实现调用串口功能
2019/12/26 Python
TensorFlow——Checkpoint为模型添加检查点的实例
2020/01/21 Python
Python %r和%s区别代码实例解析
2020/04/03 Python
记录模型训练时loss值的变化情况
2020/06/16 Python
canvas生成带二维码海报的踩坑记录
2019/09/11 HTML / CSS
粉红色的鲸鱼:Vineyard Vines
2018/02/17 全球购物
售后专员岗位职责
2013/12/08 职场文书
先进集体申报材料
2014/12/25 职场文书
《牧场之国》教学反思
2016/02/22 职场文书
CSS 圆形进度栏
2021/04/06 HTML / CSS
Python Pandas pandas.read_sql函数实例用法
2021/06/21 Python
Vue Element plus使用方法梳理
2022/12/24 Vue.js