Python中文分词工具之结巴分词用法实例总结【经典案例】


Posted in Python onApril 15, 2017

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

三水点靠木是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示

Python中文分词工具之结巴分词用法实例总结【经典案例】

查阅相关资料后发现,需要在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Python中文分词工具之结巴分词用法实例总结【经典案例】

Editplus打开t_with_POS_tag.txt文件如下图所示:

Python中文分词工具之结巴分词用法实例总结【经典案例】

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python转换字符串为摩尔斯电码的方法
Jul 06 Python
Python实现多并发访问网站功能示例
Jun 19 Python
python使用json序列化datetime类型实例解析
Feb 11 Python
Python 实现网页自动截图的示例讲解
May 17 Python
对Python 数组的切片操作详解
Jul 02 Python
详解Python读取yaml文件多层菜单
Mar 23 Python
详解Matplotlib绘图之属性设置
Aug 23 Python
Python响应对象text属性乱码解决方案
Mar 31 Python
在django admin中配置搜索域是一个外键时的处理方法
May 20 Python
在keras中实现查看其训练loss值
Jun 16 Python
Python文件操作及内置函数flush原理解析
Oct 13 Python
使用python创建股票的时间序列可视化分析
Mar 03 Python
Python结巴中文分词工具使用过程中遇到的问题及解决方法
Apr 15 #Python
Python编程实现生成特定范围内不重复多个随机数的2种方法
Apr 14 #Python
Python编程判断一个正整数是否为素数的方法
Apr 14 #Python
python编程实现归并排序
Apr 14 #Python
python实现折半查找和归并排序算法
Apr 14 #Python
Python+Wordpress制作小说站
Apr 14 #Python
Python 中 list 的各项操作技巧
Apr 13 #Python
You might like
PHP 类商品秒杀计时实现代码
2010/05/05 PHP
PHP学习之正则表达式
2011/04/17 PHP
在php和MySql中计算时间差的方法
2011/04/22 PHP
php/js获取客户端mac地址的实现代码
2013/07/08 PHP
php截取中文字符串函数实例
2015/02/23 PHP
php简单实现文件或图片强制下载的方法
2016/12/06 PHP
随机显示经典句子或诗歌的javascript脚本
2007/08/04 Javascript
jQuery 美元符冲突的解决方法
2010/03/28 Javascript
围观tangram js库
2010/12/28 Javascript
jquery阻止后续事件只执行第一个事件
2014/07/24 Javascript
Javascript解析URL方法详解
2014/12/05 Javascript
js使用post 方式打开新窗口
2015/02/26 Javascript
解决Jquery向页面append新元素之后事件的绑定问题
2015/03/16 Javascript
jQuery标签编辑插件Tagit使用指南
2015/04/21 Javascript
jQuery鼠标悬浮链接弹出跟随图片实例代码
2016/01/08 Javascript
基于jQuery解决ios10以上版本缩放问题
2017/11/03 jQuery
对vue里函数的调用顺序介绍
2018/03/17 Javascript
微信小程序实现元素渐入渐出动画效果封装方法
2019/05/18 Javascript
vuejs实现下拉框菜单选择
2020/10/23 Javascript
在Windows系统上搭建Nginx+Python+MySQL环境的教程
2015/12/25 Python
Python基础知识_浅谈用户交互
2017/05/31 Python
django初始化数据库的实例
2018/05/27 Python
Python 连接 MySQL 的几种方法
2020/09/09 Python
python实现excel公式格式化的示例代码
2020/12/23 Python
Python使用Opencv实现边缘检测以及轮廓检测的实现
2020/12/31 Python
CSS3实现缺角矩形,折角矩形以及缺角边框
2019/12/20 HTML / CSS
限量版运动鞋和街头服饰:TheDrop
2020/09/06 全球购物
Solaris操作系统的线程机制
2012/12/23 面试题
企业厂长岗位职责
2013/12/17 职场文书
食品工程专业求职信
2014/06/15 职场文书
大学生上课迟到检讨书
2014/10/15 职场文书
工作失职自我检讨书
2015/05/05 职场文书
团委副书记工作总结
2015/08/14 职场文书
计算机实训心得体会
2016/01/14 职场文书
高中语文教学反思范文
2016/02/16 职场文书
Spring boot实现上传文件到本地服务器
2022/08/14 Java/Android