Python中文分词工具之结巴分词用法实例总结【经典案例】


Posted in Python onApril 15, 2017

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

三水点靠木是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示

Python中文分词工具之结巴分词用法实例总结【经典案例】

查阅相关资料后发现,需要在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Python中文分词工具之结巴分词用法实例总结【经典案例】

Editplus打开t_with_POS_tag.txt文件如下图所示:

Python中文分词工具之结巴分词用法实例总结【经典案例】

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python中非常实用的一些功能和函数分享
Feb 14 Python
Python实现微信自动好友验证,自动回复,发送群聊链接方法
Feb 21 Python
Python函数的参数常见分类与用法实例详解
Mar 30 Python
详解爬虫被封的问题
Apr 23 Python
简单了解Django ContentType内置组件
Jul 23 Python
Django自带日志 settings.py文件配置方法
Aug 30 Python
Django自带的加密算法及加密模块详解
Dec 03 Python
Numpy将二维数组添加到空数组的实现
Dec 05 Python
Python 实现顺序高斯消元法示例
Dec 09 Python
Python 生成VOC格式的标签实例
Mar 10 Python
Python实现动态循环输出文字功能
May 07 Python
简单了解如何封装自己的Python包
Jul 08 Python
Python结巴中文分词工具使用过程中遇到的问题及解决方法
Apr 15 #Python
Python编程实现生成特定范围内不重复多个随机数的2种方法
Apr 14 #Python
Python编程判断一个正整数是否为素数的方法
Apr 14 #Python
python编程实现归并排序
Apr 14 #Python
python实现折半查找和归并排序算法
Apr 14 #Python
Python+Wordpress制作小说站
Apr 14 #Python
Python 中 list 的各项操作技巧
Apr 13 #Python
You might like
《超神学院》霸气归来, 天使彦上演维多利亚的秘密
2020/03/02 国漫
融入意大利的咖啡文化
2021/03/03 咖啡文化
使用gd库实现php服务端图片裁剪和生成缩略图功能分享
2013/12/25 PHP
解析WordPress中函数钩子hook的作用及基本用法
2015/12/22 PHP
php支付宝系列之电脑网站支付
2018/05/30 PHP
laravel5.2表单验证,并显示错误信息的实例
2019/09/29 PHP
js 蒙版进度条(结合图片)
2010/03/10 Javascript
javascript实现仿IE顶部的可关闭警告条
2015/05/05 Javascript
四种参数传递的形式——URL,超链接,js,form表单
2015/07/24 Javascript
js实现YouKu的漂亮搜索框效果
2015/08/19 Javascript
14 个折磨人的 JavaScript 面试题
2016/08/08 Javascript
微信小程序 wxapp导航 navigator详解
2016/10/31 Javascript
Vue.js中轻松解决v-for执行出错的三个方案
2017/06/09 Javascript
spring+angular实现导出excel的实现代码
2019/02/27 Javascript
利用es6 new.target来对模拟抽象类的方法
2019/05/10 Javascript
vue webpack重写cookie路径的方法
2019/07/10 Javascript
vue多页面项目中路由使用history模式的方法
2019/09/23 Javascript
原生JS实现记忆翻牌游戏
2020/07/31 Javascript
[02:46]2014DOTA2国际邀请赛 选手为你解读比赛MVP充满梦想
2014/07/09 DOTA
Python实现的石头剪子布代码分享
2014/08/22 Python
跟老齐学Python之做一个小游戏
2014/09/28 Python
python3模块smtplib实现发送邮件功能
2018/05/22 Python
django 外键model的互相读取方法
2018/12/15 Python
python3爬虫怎样构建请求header
2018/12/23 Python
用python查找统一局域网下ip对应的mac地址
2021/01/13 Python
使用HTML5 IndexDB存储图像和文件的示例
2018/11/05 HTML / CSS
使用HTML5在网页中嵌入音频和视频播放的基本方法
2016/02/22 HTML / CSS
美国殿堂级滑板、冲浪、滑雪服装品牌:Volcom(钻石)
2017/04/20 全球购物
金额转换,阿拉伯数字的金额转换成中国传统的形式如:(¥1011)-> (一千零一拾一元整)输出
2015/05/29 面试题
基层干部十八大感言
2014/01/19 职场文书
2015年公务员转正工作总结
2015/04/24 职场文书
怎样写家长意见
2015/06/04 职场文书
朝花夕拾读书笔记
2015/06/29 职场文书
开学第一周值周总结
2015/07/16 职场文书
CSS 制作波浪效果的思路
2021/05/18 HTML / CSS
铁拳制作人赞《铁拳7》老头环Mod:制作精良 但别弄了
2022/04/03 其他游戏