python使用jieba实现中文分词去停用词方法示例


Posted in Python onMarch 11, 2018

前言

jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。

分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8

支持三种分词模式

      1 精确模式,试图将句子最精确地切开,适合文本分析;

      2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

      3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

# 精确模式 seg_list = jieba.cut("我去过清华大学和北京大学。")

# 全模式 seg_list = jieba.cut("我去过清华大学和北京大学。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去过清华大学和北京大学。")

#精确模式: 我/ 去过/ 清华大学/ 和/ 北京大学/ 。

#全模式: 我/ 去过/ 清华/ 清华大学/ 华大/ 大学/ 和/ 北京/ 北京大学/ 大学/ /

#搜索引擎模式: 我/ 去过/ 清华/ 华大/ 大学/ 清华大学/ 和/ 北京/ 大学/ 北京大学/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
  stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
python设置windows桌面壁纸的实现代码
Jan 28 Python
Python中的作用域规则详解
Jan 30 Python
Python脚本简单实现打开默认浏览器登录人人和打开QQ的方法
Apr 12 Python
使用pygame模块编写贪吃蛇的实例讲解
Feb 05 Python
Python使用win32 COM实现Excel的写入与保存功能示例
May 03 Python
对命令行模式与python交互模式介绍
May 12 Python
PyCharm 创建指定版本的 Django(超详图解教程)
Jun 18 Python
python getpass模块用法及实例详解
Oct 07 Python
python实现操作文件(文件夹)
Oct 31 Python
解决pycharm中导入自己写的.py函数出错问题
Feb 12 Python
Python random库使用方法及异常处理方案
Mar 02 Python
python实现简单的井字棋
May 26 Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
python实现日常记账本小程序
Mar 10 #Python
You might like
一个简单的网页密码登陆php代码
2012/07/17 PHP
php使用ICQ网关发送手机短信
2013/10/30 PHP
PHP利用hash冲突漏洞进行DDoS攻击的方法分析
2015/03/26 PHP
php实现的pdo公共类定义与用法示例
2017/07/19 PHP
PHP基于堆栈实现的高级计算器功能示例
2017/09/15 PHP
JS去除字符串的空格增强版(可以去除中间的空格)
2009/08/26 Javascript
jquery 提示信息显示后自动消失的具体实现
2013/12/18 Javascript
Js实现网页键盘控制翻页的方法
2014/10/30 Javascript
JavaScript中发布/订阅模式的简单实例
2014/11/05 Javascript
JavaScript中pop()方法的使用教程
2015/06/09 Javascript
快速解决js中window.location.href不工作的问题
2016/11/02 Javascript
AngularJs实现聊天列表实时刷新功能
2017/06/15 Javascript
Angular中ng-repeat与ul li的多层嵌套重复问题
2017/07/24 Javascript
关于vue-router的beforeEach无限循环的问题解决
2017/09/09 Javascript
详解NODEJS的http实现
2018/01/04 NodeJs
Vue.js实现可配置的登录表单代码详解
2018/03/29 Javascript
Vue中使用ElementUI使用第三方图标库iconfont的示例
2018/10/11 Javascript
基于vue的验证码组件的示例代码
2019/01/22 Javascript
基于Bootstrap和JQuery实现动态打开和关闭tab页的实例代码
2019/06/10 jQuery
关于微信小程序map组件z-index的层级问题分析
2019/07/09 Javascript
vux-scroller实现移动端上拉加载功能过程解析
2019/10/08 Javascript
vue实现树状表格效果
2020/12/29 Vue.js
利用JS判断元素是否为数组的方法示例
2021/01/08 Javascript
Python实现遍历目录的方法【测试可用】
2017/03/22 Python
python计算日期之间的放假日期
2018/06/05 Python
详解Python 协程的详细用法使用和例子
2018/06/15 Python
Django框架用户注销功能实现方法分析
2019/05/28 Python
Python完全识别验证码自动登录实例详解
2019/11/24 Python
python 实现仿微信聊天时间格式化显示的代码
2020/04/17 Python
Mio Skincare英国官网:身体紧致及孕期身体护理
2018/08/19 全球购物
给排水专业应届生求职信
2013/10/12 职场文书
感恩的演讲稿
2014/05/06 职场文书
文明市民先进事迹
2014/05/15 职场文书
优秀班主任材料
2014/12/16 职场文书
聘任书的格式及模板
2019/10/28 职场文书
使用CSS实现按钮边缘跑马灯动画
2023/05/07 HTML / CSS