Python jieba库用法及实例解析


Posted in Python onNovember 04, 2019

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语
  • - jieba是优秀的中文分词第三方库,需要额外安装
  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词
  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现dict版图遍历示例
Feb 19 Python
Python3的urllib.parse常用函数小结(urlencode,quote,quote_plus,unquote,unquote_plus等)
Sep 18 Python
关于python多重赋值的小问题
Apr 17 Python
pyqt5 获取显示器的分辨率的方法
Jun 18 Python
Djang的model创建的字段和参数详解
Jul 27 Python
python mqtt 客户端的实现代码实例
Sep 25 Python
使用python制作游戏下载进度条的代码(程序说明见注释)
Oct 24 Python
python 实现多线程下载视频的代码
Nov 15 Python
在Django下创建项目以及设置settings.py教程
Dec 03 Python
python实现简单井字棋小游戏
Mar 05 Python
基于python实现删除指定文件类型
Jul 21 Python
python生成xml时规定dtd实例方法
Sep 21 Python
Django框架安装方法图文详解
Nov 04 #Python
python定时任务 sched模块用法实例
Nov 04 #Python
python框架flask表单实现详解
Nov 04 #Python
pycharm显示远程图片的实现
Nov 04 #Python
使用PyCharm进行远程开发和调试的实现
Nov 04 #Python
python框架django项目部署相关知识详解
Nov 04 #Python
python tkinter控件布局项目实例
Nov 04 #Python
You might like
php fputcsv命令 写csv文件遇到的小问题(多维数组连接符)
2011/05/24 PHP
php中jQuery插件autocomplate的简单使用笔记
2012/06/14 PHP
php利用curl抓取新浪微博内容示例
2014/04/27 PHP
原生PHP实现导出csv格式Excel文件的方法示例【附源码下载】
2019/03/07 PHP
PHP基于array_unique实现二维数组去重
2020/07/14 PHP
js 鼠标拖动对象 可让任何div实现拖动效果
2009/11/09 Javascript
createElement与createDocumentFragment的点点区别小结
2011/12/19 Javascript
jquery入门——事件机制之事件中的冒泡现象示例解释
2020/09/12 Javascript
IE网页js语法错误2行字符1、FF中正常的解决方法
2013/09/09 Javascript
Javascript 拖拽的一些高级的应用(逐行分析代码,让你轻松了拖拽的原理)
2015/01/23 Javascript
javascript实现列表滚动的方法
2015/07/30 Javascript
jquery对象和DOM对象的任意相互转换
2016/02/21 Javascript
JavaScript 对象字面量讲解
2016/06/06 Javascript
JavaScript触发onScroll事件的函数节流详解
2016/12/14 Javascript
JS实现的五级联动菜单效果完整实例
2017/02/23 Javascript
JS与jQuery实现子窗口获取父窗口元素值的方法
2017/04/17 jQuery
解析Json字符串的三种方法日常常用
2018/05/02 Javascript
jquery分页插件pagination使用教程
2018/10/23 jQuery
node.js express框架简介与实现
2019/07/23 Javascript
关于JavaScript中异步/等待的用法与理解
2020/11/18 Javascript
[12:29]2018国际邀请赛 开幕秀
2018/08/22 DOTA
玩转python爬虫之正则表达式
2016/02/17 Python
Python爬虫之UserAgent的使用实例
2019/02/21 Python
python如何删除文件中重复的字段
2019/07/16 Python
Python在OpenCV里实现极坐标变换功能
2019/09/02 Python
django实现模型字段动态choice的操作
2020/04/01 Python
Python如何telnet到网络设备
2021/02/18 Python
提供世界各地便宜的机票:Sky-tours
2016/07/21 全球购物
携程英文网站:Trip.com
2017/02/07 全球购物
新闻专业学生的自我评价
2014/02/13 职场文书
客户接待方案
2014/02/26 职场文书
教室标语大全
2014/06/21 职场文书
四风查摆问题及整改措施
2014/10/10 职场文书
学习保证书100字
2015/02/26 职场文书
接待员岗位职责范本
2015/04/15 职场文书
反腐倡廉主题教育活动总结
2015/05/07 职场文书