python使用jieba实现中文分词去停用词方法示例


Posted in Python onMarch 11, 2018

前言

jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。

分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8

支持三种分词模式

      1 精确模式,试图将句子最精确地切开,适合文本分析;

      2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

      3 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

# 精确模式 seg_list = jieba.cut("我去过清华大学和北京大学。")

# 全模式 seg_list = jieba.cut("我去过清华大学和北京大学。", cut_all=True)

# 搜索引擎模式 seg_list = jieba.cut_for_search("我去过清华大学和北京大学。")

#精确模式: 我/ 去过/ 清华大学/ 和/ 北京大学/ 。

#全模式: 我/ 去过/ 清华/ 清华大学/ 华大/ 大学/ 和/ 北京/ 北京大学/ 大学/ /

#搜索引擎模式: 我/ 去过/ 清华/ 华大/ 大学/ 清华大学/ 和/ 北京/ 大学/ 北京大学/

#coding=utf-8
import jieba. analyse
stopwords=[]
for word in open('stopwords.txt','r'):
 stopwords.append(word.strip())
article=open('1.txt','r').read()
words=jieba.cut(article,cut_all=False)
stayed_line=""
for word in words:
 if word.encode("utf-8")not in stopwords:
  stayed_line+=word+" "
print stayed_line
w=open('2.txt','w')
w.write(stayed_line.encode('utf-8'))

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
TensorFlow实现MLP多层感知机模型
Mar 09 Python
强悍的Python读取大文件的解决方案
Feb 16 Python
Python文件读写常见用法总结
Feb 22 Python
Python中三元表达式的几种写法介绍
Mar 04 Python
python实现弹跳小球
May 13 Python
python实现微信自动回复机器人功能
Jul 11 Python
Python 脚本实现淘宝准点秒杀功能
Nov 13 Python
linux 下python多线程递归复制文件夹及文件夹中的文件
Jan 02 Python
pytorch之ImageFolder使用详解
Jan 06 Python
jupyter notebook 写代码自动补全的实现
Nov 02 Python
python正则表达式re.search()的基本使用教程
May 21 Python
python中的3种定义类方法
Nov 27 Python
python实现拓扑排序的基本教程
Mar 11 #Python
Python实现图片尺寸缩放脚本
Mar 10 #Python
TensorFlow平台下Python实现神经网络
Mar 10 #Python
python构建深度神经网络(续)
Mar 10 #Python
python构建深度神经网络(DNN)
Mar 10 #Python
Python使用numpy实现BP神经网络
Mar 10 #Python
python实现日常记账本小程序
Mar 10 #Python
You might like
PHP日期处理函数 整型日期格式
2011/01/12 PHP
基于php流程控制语句和循环控制语句(讲解)
2017/10/23 PHP
PHP一个简单的无需刷新爬虫
2019/01/05 PHP
JavaScript 设计模式 安全沙箱模式
2010/09/24 Javascript
常见表单重复提交问题整理及解决方法
2013/11/13 Javascript
jquery做的一个简单的屏幕锁定提示框
2014/03/26 Javascript
jQuery $命名冲突解决方案汇总
2014/11/13 Javascript
JS实现点击文字对应DIV层不停闪动效果的方法
2015/03/02 Javascript
Jquery结合HTML5实现文件上传
2015/06/25 Javascript
JQuery实现简单的图片滑动切换特效
2015/11/22 Javascript
快速掌握Node.js事件驱动模型
2016/03/21 Javascript
Bootstrap弹出带合法性检查的登录框实例代码【推荐】
2016/06/23 Javascript
Vue.js实现列表清单的操作方法
2017/11/15 Javascript
vue 2.x 中axios 封装的get 和post方法
2018/02/28 Javascript
Vue 3.x+axios跨域方案的踩坑指南
2019/07/04 Javascript
微信小程序实现多图上传
2020/06/19 Javascript
解决vue自定义指令导致的内存泄漏问题
2020/08/04 Javascript
详解javascript脚本何时会被执行
2021/02/05 Javascript
[10:49]2014国际邀请赛 叨叨刀塔第二期为真正的电竞喝彩
2014/07/21 DOTA
[52:52]完美世界DOTA2联赛PWL S3 LBZS vs access 第一场 12.10
2020/12/13 DOTA
Python实现的数据结构与算法之双端队列详解
2015/04/22 Python
pymongo实现多结果进行多列排序的方法
2015/05/16 Python
python过滤字符串中不属于指定集合中字符的类实例
2015/06/30 Python
Python Socket传输文件示例
2017/01/16 Python
使用python实现tcp自动重连
2017/07/02 Python
Python使用sort和class实现的多级排序功能示例
2018/08/15 Python
python向字符串中添加元素的实例方法
2019/06/28 Python
parser.add_argument中的action使用
2020/04/20 Python
python cookie反爬处理的实现
2020/11/01 Python
想学画画?python满足你!
2020/12/24 Python
企业管理专业个人求职信范文
2013/09/24 职场文书
2014县政府领导班子对照检查材料思想汇报
2014/09/25 职场文书
运动会广播稿200字
2014/10/18 职场文书
销售会议开幕词
2016/03/04 职场文书
毕业欢送晚会主持词
2019/06/25 职场文书
全网非常详细的pytest配置文件
2022/07/15 Python