Python jieba库用法及实例解析


Posted in Python onNovember 04, 2019

1、jieba库基本介绍

(1)、jieba库概述

jieba是优秀的中文分词第三方库

  • - 中文文本需要通过分词获得单个的词语
  • - jieba是优秀的中文分词第三方库,需要额外安装
  • - jieba库提供三种分词模式,最简单只需掌握一个函数

(2)、jieba分词的原理

Jieba分词依靠中文词库

- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果

- 除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

  • - 精确模式:把文本精确的切分开,不存在冗余单词
  • - 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • - 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

Python jieba库用法及实例解析

2.jieba应用实例

Python jieba库用法及实例解析

3.利用jieba库统计三国演义中任务的出场次数

import jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)   # 使用精确模式对文本进行分词
counts = {}   # 通过键值对的形式存储词语及其出现的次数

for word in words:
  if len(word) == 1:  # 单个词语不计算在内
    continue
  else:
    counts[word] = counts.get(word, 0) + 1  # 遍历所有词语,每出现一次其对应的值加 1
    
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)  # 根据词语出现的次数进行从大到小排序

for i in range(15):
  word, count = items[i]
  print("{0:<5}{1:>5}".format(word, count))

Python jieba库用法及实例解析

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用python实现拉钩网上的FizzBuzzWhizz问题示例
May 05 Python
20招让你的Python飞起来!
Sep 27 Python
Python协程的用法和例子详解
Sep 09 Python
Tornado 多进程实现分析详解
Jan 12 Python
Python3爬虫爬取英雄联盟高清桌面壁纸功能示例【基于Scrapy框架】
Dec 05 Python
Python 从一个文件中调用另一个文件的类方法
Jan 10 Python
基于numpy中的expand_dims函数用法
Dec 18 Python
python 实现查询Neo4j多节点的多层关系
Dec 23 Python
python实现实时视频流播放代码实例
Jan 11 Python
利用Tensorflow构建和训练自己的CNN来做简单的验证码识别方式
Jan 20 Python
对python中return与yield的区别详解
Mar 12 Python
详解Python常用的魔法方法
Jun 03 Python
Django框架安装方法图文详解
Nov 04 #Python
python定时任务 sched模块用法实例
Nov 04 #Python
python框架flask表单实现详解
Nov 04 #Python
pycharm显示远程图片的实现
Nov 04 #Python
使用PyCharm进行远程开发和调试的实现
Nov 04 #Python
python框架django项目部署相关知识详解
Nov 04 #Python
python tkinter控件布局项目实例
Nov 04 #Python
You might like
DSP接收机前端设想
2021/03/02 无线电
PHP 分页类(模仿google)-面试题目解答
2009/09/13 PHP
php中计算中文字符串长度、截取中文字符串的函数代码
2011/08/09 PHP
php多任务程序实例解析
2014/07/19 PHP
php随机显示指定文件夹下图片的方法
2015/07/13 PHP
PHP中的函数声明与使用详解
2017/05/27 PHP
JS获取IUSR_机器名和IWAM_机器名帐号的密码
2006/12/06 Javascript
js清理Word格式示例代码
2014/02/13 Javascript
容易造成JavaScript内存泄露几个方面
2014/09/04 Javascript
node.js中的http.request.end方法使用说明
2014/12/10 Javascript
Javascript数据结构与算法之列表详解
2015/03/12 Javascript
JavaScript动态改变div属性的实现方法
2015/07/22 Javascript
jquery分隔Url的param方法(推荐)
2016/05/25 Javascript
JS简单去除数组中重复项的方法
2016/09/13 Javascript
yii form 表单提交之前JS在提交按钮的验证方法
2017/03/15 Javascript
基于es6三点运算符的使用方法(实例讲解)
2017/10/12 Javascript
详解vue axios二次封装
2018/07/22 Javascript
vue-cli中使用高德地图的方法示例
2019/03/28 Javascript
关于引入vue.js 文件的知识点总结
2020/01/28 Javascript
jquery向后台提交数组的代码分析
2020/02/20 jQuery
基于原生JS封装的Modal对话框插件的示例代码
2020/09/09 Javascript
Python实现的各种常见分布算法示例
2018/12/13 Python
在Pycharm中调试Django项目程序的操作方法
2019/07/17 Python
Django logging配置及使用详解
2019/07/23 Python
django 数据库 get_or_create函数返回值是tuple的问题
2020/05/15 Python
html5的画布canvas——画出简单的矩形、三角形实例代码
2013/06/09 HTML / CSS
100%法国制造的游戏和玩具:Les Jouets Français
2021/03/02 全球购物
Linux Interview Questions For software testers
2013/05/17 面试题
学前教育毕业生自荐信
2013/10/29 职场文书
物流管理应届生求职信
2013/11/07 职场文书
面临毕业的毕业生自荐书范文
2014/02/05 职场文书
药品促销活动方案
2014/02/14 职场文书
2014年幼儿园保育工作总结
2014/12/02 职场文书
会议简讯范文
2015/07/20 职场文书
小学四年级班务总结该怎么写?
2019/08/16 职场文书
Minikube搭建Kubernetes集群
2022/03/31 Servers