编程 Python

Python3 文章标题关键字提取的例子

Posted in Python onAugust 26, 2019

思路：

1.读取所有文章标题；

2.用“结巴分词”的工具包进行文章标题的词语分割；

3.用“sklearn”的工具包计算Tf-idf（词频-逆文档率）;

4.得到满足关键词权重阈值的词

结巴分词详见：结巴分词Github

sklearn详见：文本特征提取——4.2.3.4 Tf-idf项加权

import os
import jieba
import sys
from sklearn.feature_extraction.text import TfidfVectorizer
 
 
sys.path.append("../")
jieba.load_userdict('userdictTest.txt')
STOP_WORDS = set((
  "基于", "面向", "研究", "系统", "设计", "综述", "应用", "进展", "技术", "框架", "txt"
 ))
 
def getFileList(path):
 filelist = []
 files = os.listdir(path)
 for f in files:
  if f[0] == '.':
   pass
  else:
   filelist.append(f)
 return filelist, path
 
def fenci(filename, path, segPath):
 
 # 保存分词结果的文件夹
 if not os.path.exists(segPath):
  os.mkdir(segPath)
 seg_list = jieba.cut(filename)
 result = []
 for seg in seg_list:
  seg = ''.join(seg.split())
  if len(seg.strip()) >= 2 and seg.lower() not in STOP_WORDS:
   result.append(seg)
 
 # 将分词后的结果用空格隔开，保存至本地
 f = open(segPath + "/" + filename + "-seg.txt", "w+")
 f.write(' '.join(result))
 f.close()
 
def Tfidf(filelist, sFilePath, path, tfidfw):
 corpus = []
 for ff in filelist:
  fname = path + ff
  f = open(fname + "-seg.txt", 'r+')
  content = f.read()
  f.close()
  corpus.append(content)
 
 vectorizer = TfidfVectorizer() # 该类实现词向量化和Tf-idf权重计算
 tfidf = vectorizer.fit_transform(corpus)
 word = vectorizer.get_feature_names()
 weight = tfidf.toarray()
 
 if not os.path.exists(sFilePath):
  os.mkdir(sFilePath)
 
 for i in range(len(weight)):
  print('----------writing all the tf-idf in the ', i, 'file into ', sFilePath + '/', i, ".txt----------")
  f = open(sFilePath + "/" + str(i) + ".txt", 'w+')
  result = {}
  for j in range(len(word)):
   if weight[i][j] >= tfidfw:
    result[word[j]] = weight[i][j]
  resultsort = sorted(result.items(), key=lambda item: item[1], reverse=True)
  for z in range(len(resultsort)):
   f.write(resultsort[z][0] + " " + str(resultsort[z][1]) + '\r\n')
   print(resultsort[z][0] + " " + str(resultsort[z][1]))
  f.close()

TfidfVectorizer( ) 类实现了词向量化和Tf-idf权重的计算

词向量化：vectorizer.fit_transform是将corpus中保存的切分后的单词转为词频矩阵，其过程为先将所有标题切分的单词形成feature特征和列索引，并在dictionary中保存了{‘特征'：索引，……}，如{‘农业'：0，‘大数据'：1，……}，在csc_matric中为每个标题保存了 (标题下标，特征索引) 词频tf……，然后对dictionary中的单词进行排序重新编号，并对应更改csc_matric中的特征索引，以便形成一个特征向量词频矩阵，接着计算每个feature的idf权重，其计算公式为 Python3 文章标题关键字提取的例子其中是所有文档数量，是包含该单词的文档数。最后计算tf*idf并进行正则化，得到关键词权重。

以下面六个文章标题为例进行关键词提取

Python3 文章标题关键字提取的例子

Using jieba on 农业大数据研究与应用进展综述.txt

Using jieba on 基于Hadoop的分布式并行增量爬虫技术研究.txt

Using jieba on 基于RPA的财务共享服务中心账表核对流程优化.txt

Using jieba on 基于大数据的特征趋势统计系统设计.txt

Using jieba on 网络大数据平台异常风险监测系统设计.txt

Using jieba on 面向数据中心的多源异构数据统一访问框架.txt

----------writing all the tf-idf in the 0 file into ./keywords/ 0 .txt----------

农业 0.773262366783

大数据 0.634086202434

----------writing all the tf-idf in the 1 file into ./keywords/ 1 .txt----------

hadoop 0.5

分布式 0.5

并行增量 0.5

爬虫 0.5

----------writing all the tf-idf in the 2 file into ./keywords/ 2 .txt----------

rpa 0.408248290464

优化 0.408248290464

服务中心 0.408248290464

流程 0.408248290464

财务共享 0.408248290464

账表核对 0.408248290464

----------writing all the tf-idf in the 3 file into ./keywords/ 3 .txt----------

特征 0.521823488025

统计 0.521823488025

趋势 0.521823488025

大数据 0.427902724969

----------writing all the tf-idf in the 4 file into ./keywords/ 4 .txt----------

大数据平台 0.4472135955

异常 0.4472135955

监测 0.4472135955

网络 0.4472135955

风险 0.4472135955

----------writing all the tf-idf in the 5 file into ./keywords/ 5 .txt----------

多源异构数据 0.57735026919

数据中心 0.57735026919

统一访问 0.57735026919

以上这篇Python3 文章标题关键字提取的例子就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

Python3 文章标题关键字提取的例子

- Author -

Muzi_Water

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

跟老齐学Python之永远强大的函数

Sep 14 Python

python2.7+selenium2实现淘宝滑块自动认证功能

Feb 24 Python

python2.7和NLTK安装详细教程

Sep 19 Python

Django 导出项目依赖库到 requirements.txt过程解析

Aug 23 Python

python列表生成器迭代器实例解析

Dec 19 Python

tensorflow模型保存、加载之变量重命名实例

Jan 21 Python

python批量修改xml属性的实现方式

Mar 05 Python

python suds访问webservice服务实现

Jun 26 Python

套娃式文件夹如何通过Python批量处理

Aug 23 Python

pycharm永久激活超详细教程

Oct 29 Python

python opencv常用图形绘制方法(线段、矩形、圆形、椭圆、文本)

Apr 12 Python

Python连续赋值需要注意的一些问题

Jun 03 Python

python实现的爬取电影下载链接功能示例

Aug 26 #Python

Python使用itchat模块实现简单的微信控制电脑功能示例

Aug 26 #Python

Python3.6实现根据电影名称（支持电视剧名称），获取下载链接的方法

Aug 26 #Python

Golang GBK转UTF-8的例子

Aug 26 #Python

利用python实现周期财务统计可视化

Aug 25 #Python

Python爬虫运用正则表达式的方法和优缺点

Aug 25 #Python

numpy求平均值的维度设定的例子

Aug 24 #Python

You might like

PHP 使用 Imagick 裁切/生成缩略图/添加水印自动检测和处理 GIF

2016/02/19 PHP

thinkPHP5.0框架自动加载机制分析

2017/03/18 PHP

PHP PDOStatement::getColumnMeta讲解

2019/02/01 PHP

laravel框架数据库配置及操作数据库示例

2019/10/10 PHP

Thinkphp 框架扩展之数据库驱动常用方法小结

2020/04/23 PHP

JavaScript创建命名空间(namespace)的最简实现

2007/12/11 Javascript

读JavaScript DOM编程艺术笔记

2011/11/15 Javascript

兼容所有浏览器的js复制插件Zero使用介绍

2014/03/19 Javascript

使用JavaScript判断图片是否加载完成的三种实现方式

2014/05/04 Javascript

JS常见问题之为什么点击弹出的i总是最后一个

2016/01/05 Javascript

Angular.js如何从PHP读取后台数据

2016/03/24 Javascript

JavaScript的变量声明提升问题浅析(Hoisting)

2016/11/30 Javascript

javascript事件捕获机制【深入分析IE和DOM中的事件模型】

2016/12/15 Javascript

Bootstrap进度条实现代码解析

2017/03/07 Javascript

JS实现图片手风琴效果

2020/04/17 Javascript

vue.js,ajax渲染页面的实例

2018/02/11 Javascript

浅谈在react中如何实现扫码枪输入

2018/07/04 Javascript

实例分析编写vue组件方法

2019/02/12 Javascript

浅谈小程序 setData学问多

2019/02/20 Javascript

Vue循环中多个input绑定指定v-model实例

2020/08/31 Javascript

Python 抓取动态网页内容方案详解

2014/12/25 Python

Python3.2中的字符串函数学习总结

2015/04/23 Python

Python的Flask框架中SQLAlchemy使用时的乱码问题解决

2015/11/07 Python

python利用matplotlib库绘制饼图的方法示例

2016/12/18 Python

Python爬虫代理IP池实现方法

2017/01/05 Python

Python开发虚拟环境使用virtualenvwrapper的搭建步骤教程图解

2018/09/19 Python

django queryset相加和筛选教程

2020/05/18 Python

Python的控制结构之For、While、If循环问题

2020/06/30 Python

Python爬虫定时计划任务的几种常见方法(推荐)

2021/01/15 Python

西班牙英格列斯百货法国官网：El Corte Inglés法国

2017/07/09 全球购物

GANT葡萄牙官方商店：拥有美国运动服传统的生活方式品牌

2018/10/18 全球购物

开学典礼决心书

2014/03/11 职场文书

3.15国际消费者权益日主题活动活动总结

2014/03/16 职场文书

2014年健康教育工作总结

2014/11/20 职场文书

副总经理岗位职责范本

2015/04/08 职场文书

java中为什么说子类的构造方法默认访问的是父类的无参构造方法

2022/04/13 Java/Android