Python英文文本分词(无空格)模块wordninja的使用实例


Posted in Python onFebruary 20, 2019

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():
  '''
  https://github.com/yishuihanhan/wordninja
  '''
  import wordninja
  print wordninja.split('derekanderson')
  print wordninja.split('imateapot')
  print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
  print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
linux环境下安装pyramid和新建项目的步骤
Nov 27 Python
python删除文件示例分享
Jan 28 Python
详解Python中的变量及其命名和打印
Mar 11 Python
Python模拟鼠标点击实现方法(将通过实例自动化模拟在360浏览器中自动搜索python)
Aug 23 Python
python爬取网页转换为PDF文件
Jun 07 Python
python 三元运算符使用解析
Sep 16 Python
python集合常见运算案例解析
Oct 17 Python
Pytorch之保存读取模型实例
Dec 30 Python
python GUI库图形界面开发之PyQt5日期时间控件QDateTimeEdit详细使用方法与实例
Feb 27 Python
Python爬虫使用bs4方法实现数据解析
Aug 25 Python
Django使用django-simple-captcha做验证码的实现示例
Jan 07 Python
python FTP编程基础入门
Feb 27 Python
Python基于datetime或time模块分别获取当前时间戳的方法实例
Feb 19 #Python
Python子类继承父类构造函数详解
Feb 19 #Python
Python 隐藏输入密码时屏幕回显的实例
Feb 19 #Python
Python3标准库总结
Feb 19 #Python
Python语言检测模块langid和langdetect的使用实例
Feb 19 #Python
对python周期性定时器的示例详解
Feb 19 #Python
Python3数字求和的实例
Feb 19 #Python
You might like
php设计模式之命令模式的应用详解
2013/05/21 PHP
php处理restful请求的路由类分享
2014/02/27 PHP
一个PHP的ZIP压缩类分享
2014/05/04 PHP
php安装swoole扩展的方法
2015/03/19 PHP
smarty模板的使用方法实例分析
2019/09/18 PHP
php使用redis的有序集合zset实现延迟队列应用示例
2020/02/20 PHP
Nigma vs Liquid BO3 第二场2.13
2021/03/10 DOTA
JavaScript 放大镜 移动镜片效果代码
2011/05/09 Javascript
js实现目录定位正文示例
2013/11/14 Javascript
IE8的JavaScript点击事件(onclick)不兼容的解决方法
2013/11/22 Javascript
三种检测iPhone/iPad设备方向的方法
2014/04/23 Javascript
一个Action如何调用两个不同的方法
2014/05/22 Javascript
处理文本部分内容的TextRange对象应用实例
2014/07/29 Javascript
JS 使用for循环遍历子节点查找元素
2014/09/06 Javascript
jQuery中的ready函数与window.onload谁先执行
2016/06/21 Javascript
jQuery如何封装输入框插件
2016/08/19 Javascript
AngularJS 应用模块化的使用
2018/04/04 Javascript
Vue.js结合bootstrap前端实现分页和排序效果
2018/12/29 Javascript
taro小程序添加骨架屏的实现代码
2019/11/15 Javascript
vue中使用vue-pdf的方法详解
2020/09/05 Javascript
python list转dict示例分享
2014/01/28 Python
在Python编程过程中用单元测试法调试代码的介绍
2015/04/02 Python
如何用python写一个简单的词法分析器
2018/12/18 Python
python 正则表达式参数替换实例详解
2020/01/17 Python
使用TensorFlow搭建一个全连接神经网络教程
2020/02/06 Python
python实现堆排序的实例讲解
2020/02/21 Python
Pycharm2020最新激活码|永久激活(附最新激活码和插件的详细教程)
2020/09/29 Python
python Protobuf定义消息类型知识点讲解
2021/03/02 Python
计算机应届毕业生自荐信范文
2014/02/23 职场文书
捐书活动总结
2014/05/04 职场文书
党支部反对四风思想汇报
2014/10/10 职场文书
学前班幼儿评语大全
2014/12/29 职场文书
2015年行政助理工作总结
2015/04/30 职场文书
行政处罚听证告知书
2015/07/01 职场文书
Navicat for MySQL的使用教程详解
2021/05/27 MySQL
pytorch model.cuda()花费时间很长的解决
2021/06/01 Python