python实现关键词提取的示例讲解


Posted in Python onApril 28, 2018

新人小菜鸟又来写博客啦!!!没人表示不开心~~(>_<)~~

今天我来弄一个简单的关键词提取的代码

文章内容关键词的提取分为三大步:

(1) 分词

(2) 去停用词

(3) 关键词提取

分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。

具体代码如下:

import jieba
import jieba.analyse
#第一步:分词,这里使用结巴分词全模式
text = '''新闻,也叫消息,是指报纸、电台、电视台、互联网经常使用的记录社会、传播信息、反映时代的一种文体,具有真实性、时效性、简洁性、可读性、准确性的特点。新闻概念有广义与狭义之分。就其广义而言,除了发表于报刊、广播、电视上的评论与专文外的常用文本都属于新闻之列,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等。狭义的新闻则专指消息,消息是用概括的叙述方式,比较简明扼要的文字,迅速及时地报道国内外新近发生的、有价值的的事实。新闻也分公众新闻和小道新闻等。每则新闻在结构上,一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法上主要是叙述,有时兼有议论、描写、评论等。
'''
fenci_text = jieba.cut(text)
#print("/ ".join(fenci_text))
#第二步:去停用词
#这里是有一个文件存放要改的文章,一个文件存放停用表,然后和停用表里的词比较,一样的就删掉,最后把结果存放在一个文件中
stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ])
final = ""
for word in fenci_text:
  if word not in stopwords:
    if (word != "。" and word != ",") :
      final = final + " " + word
print(final)
#第三步:提取关键词
a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ())
print(a)
#text 为待提取的文本
# topK:返回几个 TF/IDF 权重最大的关键词,默认值为20。
# withWeight:是否一并返回关键词权重值,默认值为False。
# allowPOS:仅包括指定词性的词,默认值为空,即不进行筛选。

运行结果:

runfile('D:/Data/文本挖掘/xiaojieba.py', wdir='D:/Data/文本挖掘')
 新闻 消息 指 报纸 、 电台 、 电视台 、 互联网 记录 社会 、 传播 信息 、 时代 一种 文体 真实性 、 时效性 、 简洁性 、 可读性 、 准确性 新闻 概念 广义 狭义 之分 广义 发表 报刊 、 广播 、 电视 评论 专文 外 常用 文本 新闻 列 包括 消息 、 通讯 、 特写 、 速写 ( 速写 纳入 特写 列 ) 狭义 新闻 专指 消息 消息 概括 叙述 方式 简明扼要 文字 报道 国内外 新近 发生 、 价值 事实 新闻 分 公众 新闻 小道 新闻 每则 新闻 在结构上 包括 标题 、 导语 、 主体 、 背景 结语 五 前 三者 二者 辅助 写法 叙述 兼有 议论 、 描写 、 评论 
[('新闻', 0.4804811569680808), ('速写', 0.2121107125313131), ('消息', 0.20363211136040404), ('特写', 0.20023623445272729), ('狭义', 0.16168734917858588)]

好啦,是不是很简单?

以上这篇python实现关键词提取的示例讲解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 正则表达式操作指南
May 04 Python
用Python写的图片蜘蛛人代码
Aug 27 Python
Python中的两个内置模块介绍
Apr 05 Python
浅谈Python中的数据类型
May 05 Python
详解在Python的Django框架中创建模板库的方法
Jul 20 Python
详解Python各大聊天系统的屏蔽脏话功能原理
Dec 01 Python
Python 使用with上下文实现计时功能
Mar 09 Python
python实现键盘控制鼠标移动
Nov 27 Python
pygame实现俄罗斯方块游戏(基础篇2)
Oct 29 Python
flask框架蓝图和子域名配置详解
Jan 25 Python
Python抓包程序mitmproxy安装和使用过程图解
Mar 02 Python
Python生成器generator原理及用法解析
Jul 20 Python
python实现扫描日志关键字的示例
Apr 28 #Python
python socket网络编程之粘包问题详解
Apr 28 #Python
在Windows中设置Python环境变量的实例讲解
Apr 28 #Python
PyTorch快速搭建神经网络及其保存提取方法详解
Apr 28 #Python
对Python中type打开文件的方式介绍
Apr 28 #Python
PyTorch上搭建简单神经网络实现回归和分类的示例
Apr 28 #Python
TensorFlow实现非线性支持向量机的实现方法
Apr 28 #Python
You might like
php4的session功能评述(二)
2006/10/09 PHP
PHP中的错误处理、异常处理机制分析
2012/05/07 PHP
PHP保存带BOM文件的方法
2015/02/12 PHP
WordPress中用于获取搜索表单的PHP函数使用解析
2016/01/05 PHP
php 处理png图片白色背景色改为透明色的实例代码
2018/12/10 PHP
Laravel框架查询构造器 CURD操作示例
2019/09/04 PHP
Laravel5.5 视图 - 创建视图和数据传递示例
2019/10/21 PHP
Jquery刷新页面背景图片随机变换的实现方法
2013/03/15 Javascript
JQuery1.8 判断元素是否绑定事件的方法
2014/07/10 Javascript
jQuery Ajax()方法使用指南
2014/11/19 Javascript
Javascript表单特效之十大常用原理性样例代码大总结
2016/07/12 Javascript
基于MVC+EasyUI的web开发框架之使用云打印控件C-Lodop打印页面或套打报关运单信息
2016/08/29 Javascript
jQuery视差滚动效果网页实现方法经验总结
2016/09/29 Javascript
Jquery实现上下移动和排序代码
2016/10/17 Javascript
详解javascript获取url信息的常见方法
2016/12/19 Javascript
vue-resourse将json数据输出实例
2017/03/08 Javascript
使用FormData实现上传多个文件
2018/12/04 Javascript
Vue学习之组件用法实例详解
2020/01/06 Javascript
vue+element 实现商城主题开发的示例代码
2020/03/26 Javascript
Vue 电商后台管理项目阶段性总结(推荐)
2020/08/22 Javascript
跟老齐学Python之集合的关系
2014/09/24 Python
python采集百度百科的方法
2015/06/05 Python
Python使用Matplotlib实现雨点图动画效果的方法
2017/12/23 Python
Python中的defaultdict与__missing__()使用介绍
2018/02/03 Python
python实现n个数中选出m个数的方法
2018/11/13 Python
判断python对象是否可调用的三种方式及其区别详解
2019/01/31 Python
Python程序打包工具py2exe和PyInstaller详解
2019/06/28 Python
python3爬虫GIL修改多线程实例讲解
2020/11/24 Python
Revolution Beauty美国官网:英国知名化妆品网站
2018/07/23 全球购物
档案检查欢迎词
2014/01/13 职场文书
新年团拜会主持词
2014/04/02 职场文书
女生节标语
2014/06/26 职场文书
JavaScript继承的三种方法实例
2021/05/12 Javascript
教你用Java在个人电脑上实现微信扫码支付
2021/06/13 Java/Android
一定要知道的 25 个 Vue 技巧
2021/11/02 Vue.js
BCL经典机 SONY ICF-5900W电路分析
2022/04/24 无线电