python中文分词,使用结巴分词对python进行分词(实例讲解)


Posted in Python onNovember 14, 2017

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法。

中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。

其基本实现原理有三点:

1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

3.对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

安装(Linux环境)

下载工具包,解压后进入目录下,运行:python setup.py install

python中文分词,使用结巴分词对python进行分词(实例讲解)

模式

1.默认模式,试图将句子最精确地切开,适合文本分析

2.全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎

接口

• 组件只提供jieba.cut 方法用于分词

• cut方法接受两个输入参数:

• 第一个参数为需要分词的字符串

• cut_all参数用来控制分词模式

• 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

• jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list 

• seg=jieba.cut("http://www.gg4493.cn/"):

实例

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

结果

python中文分词,使用结巴分词对python进行分词(实例讲解)

以上这篇python中文分词,使用结巴分词对python进行分词(实例讲解)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中的yield使用方法
Feb 11 Python
使用Python中的cookielib模拟登录网站
Apr 09 Python
Python抽象类的新写法
Jun 18 Python
python pytest进阶之fixture详解
Jun 27 Python
Pycharm保存不能自动同步到远程服务器的解决方法
Jun 27 Python
python获取Linux发行版名称
Aug 30 Python
python实现淘宝购物系统
Oct 25 Python
python调用HEG工具批量处理MODIS数据的方法及注意事项
Feb 18 Python
matplotlib 对坐标的控制,加图例注释的操作
Apr 17 Python
解决windows上安装tensorflow时报错,“DLL load failed: 找不到指定的模块”的问题
May 20 Python
Spy++的使用方法及下载教程
Jan 29 Python
ROS系统将python包编译为可执行文件的简单步骤
Jul 25 Python
Python中import机制详解
Nov 14 #Python
AI人工智能 Python实现人机对话
Nov 13 #Python
Python编程实现蚁群算法详解
Nov 13 #Python
Python编程实现粒子群算法(PSO)详解
Nov 13 #Python
人工智能最火编程语言 Python大战Java!
Nov 13 #Python
Python随机生成均匀分布在单位圆内的点代码示例
Nov 13 #Python
python、java等哪一门编程语言适合人工智能?
Nov 13 #Python
You might like
德生BCL3000的电路分析和打磨
2021/03/02 无线电
火车头采集器3.0采集图文教程
2007/03/17 PHP
weiphp微信公众平台授权设置
2016/01/04 PHP
PHP下载远程图片并保存到本地方法总结
2016/01/22 PHP
浅析php-fpm静态和动态执行方式的比较
2016/11/09 PHP
php使用PDO事务配合表格读取大量数据插入操作实现方法
2017/02/16 PHP
浅谈PHP发送HTTP请求的几种方式
2017/07/25 PHP
PHP给源代码加密的几种方法汇总(推荐)
2018/02/06 PHP
增强的 JavaScript 的 trim 函数的代码
2007/08/13 Javascript
javascript 面向对象编程  function是方法(函数)
2009/09/17 Javascript
JS在可编辑的div中的光标位置插入内容的方法
2014/11/20 Javascript
nodejs中的fiber(纤程)库详解
2015/03/24 NodeJs
javascript中字体浮动效果的简单实例演示
2015/11/18 Javascript
JavaScript 函数节流详解及方法总结
2017/02/09 Javascript
angularjs实现分页和搜索功能
2018/01/03 Javascript
基于vue1和vue2获取dom元素的方法
2018/03/17 Javascript
JS实现的RC4加密算法示例
2018/08/16 Javascript
详解vue服务端渲染浏览器端缓存(keep-alive)
2018/10/12 Javascript
使用Angular9和TypeScript开发RPG游戏的方法
2020/03/25 Javascript
在Python中操作文件之truncate()方法的使用教程
2015/05/25 Python
Python程序中的观察者模式结构编写示例
2016/05/27 Python
python机器学习实战之K均值聚类
2017/12/20 Python
python按时间排序目录下的文件实现方法
2018/10/17 Python
Python元组知识点总结
2019/02/18 Python
Python实现最大子序和的方法示例
2019/07/05 Python
python GUI库图形界面开发之PyQt5打开保存对话框QFileDialog详细使用方法与实例
2020/02/27 Python
python实现密码强度校验
2020/03/18 Python
Python测试框架:pytest学习笔记
2020/10/20 Python
思想政治教育专业个人求职信范文
2013/12/20 职场文书
工商治理实习生的自我评价
2014/01/15 职场文书
初中同学会活动方案
2014/08/22 职场文书
邀请函模板
2015/02/02 职场文书
环卫工作个人总结
2015/03/04 职场文书
背起爸爸上学观后感
2015/06/08 职场文书
党员心得体会范文2016
2016/01/23 职场文书
vue数据字典取键值项目的字典问题
2022/04/12 Vue.js