python jieba分词并统计词频后输出结果到Excel和txt文档方法


Posted in Python onFebruary 11, 2018

前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。

让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的。

运行环境:

  1. 安装python2.7.13:https://www.python.org/downloads/release/python-2713/
  2. 安装jieba:pip install jieba
  3. 安装xlwt:pip install xlwt

具体代码如下:

#!/usr/bin/python 
# -*- coding:utf-8 -*- 
 
import sys 
reload(sys) 
 
sys.setdefaultencoding('utf-8') 
 
import jieba 
import jieba.analyse 
import xlwt #写入Excel表的库 
 
if __name__=="__main__": 
 
 wbk = xlwt.Workbook(encoding = 'ascii') 
 sheet = wbk.add_sheet("wordCount")#Excel单元格名字 
 word_lst = [] 
 key_list=[] 
 for line in open('1.txt'):#1.txt是需要分词统计的文档 
 
  item = line.strip('\n\r').split('\t') #制表格切分 
  # print item 
  tags = jieba.analyse.extract_tags(item[0]) #jieba分词 
  for t in tags: 
   word_lst.append(t) 
 
 word_dict= {} 
 with open("wordCount.txt",'w') as wf2: #打开文件 
 
  for item in word_lst: 
   if item not in word_dict: #统计数量 
    word_dict[item] = 1 
   else: 
    word_dict[item] += 1 
 
  orderList=list(word_dict.values()) 
  orderList.sort(reverse=True) 
  # print orderList 
  for i in range(len(orderList)): 
   for key in word_dict: 
    if word_dict[key]==orderList[i]: 
     wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 
     key_list.append(key) 
     word_dict[key]=0 
  
  
 for i in range(len(key_list)): 
  sheet.write(i, 1, label = orderList[i]) 
  sheet.write(i, 0, label = key_list[i]) 
 wbk.save('wordCount.xls') #保存为 wordCount.xls文件

1.txt是你需要分词统计的文本内容,最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果

python jieba分词并统计词频后输出结果到Excel和txt文档方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现脚本锁功能(同时只能执行一个脚本)
May 10 Python
《与孩子一起学编程》python自测题
May 27 Python
对python中Librosa的mfcc步骤详解
Jan 09 Python
通过PHP与Python代码对比的语法差异详解
Jul 10 Python
Python Django的安装配置教程图文详解
Jul 17 Python
命令行运行Python脚本时传入参数的三种方式详解
Oct 11 Python
Python3搭建http服务器的实现代码
Feb 11 Python
pycharm 更改创建文件默认路径的操作
Feb 15 Python
Python标准库json模块和pickle模块使用详解
Mar 10 Python
Django admin组件的使用
Oct 24 Python
python3 字符串str和bytes相互转换
Mar 23 Python
详解NumPy中的线性关系与数据修剪压缩
May 25 Python
代码讲解Python对Windows服务进行监控
Feb 11 #Python
django 按时间范围查询数据库实例代码
Feb 11 #Python
python实现媒体播放器功能
Feb 11 #Python
python使用pycharm环境调用opencv库
Feb 11 #Python
Python元组及文件核心对象类型详解
Feb 11 #Python
详解Python核心对象类型字符串
Feb 11 #Python
python使用json序列化datetime类型实例解析
Feb 11 #Python
You might like
基于asp+ajax和数据库驱动的二级联动菜单
2010/05/06 PHP
php入门学习知识点五 关于php数组的几个基本操作
2011/07/14 PHP
PHP采集腾讯微博的实现代码
2012/01/19 PHP
Yii2使用dropdownlist实现地区三级联动功能的方法
2016/07/18 PHP
PHP利用正则表达式将相对路径转成绝对路径的方法示例
2017/02/28 PHP
Laravel框架实现修改登录和注册接口数据返回格式的方法
2018/08/17 PHP
greybox——不开新窗口看新的网页
2007/02/20 Javascript
javascript options属性集合操作代码
2009/12/28 Javascript
深入分析escape()、encodeURI()、encodeURIComponent()的区别及示例
2014/08/04 Javascript
node.js中的http.response.end方法使用说明
2014/12/14 Javascript
DOM基础教程之使用DOM + Css
2015/01/20 Javascript
ECMAScript6函数默认参数
2015/06/12 Javascript
jQuery的Cookie封装,与PHP交互的简单实现
2016/10/05 Javascript
jQuery纵向导航菜单效果实现方法
2016/12/19 Javascript
Vue中img的src属性绑定与static文件夹实例
2017/05/18 Javascript
jQuery实现轮播图源码
2019/10/23 jQuery
Vue实现仿iPhone悬浮球的示例代码
2020/03/13 Javascript
如何正确解决VuePress本地访问出现资源报错404的问题
2020/12/03 Vue.js
js删除指定位置超链接中含有百度与360的标题
2021/01/06 Javascript
使用python提取html文件中的特定数据的实现代码
2013/03/24 Python
深入理解Python中各种方法的运作原理
2015/06/15 Python
在Python web中实现验证码图片代码分享
2017/11/09 Python
numpy数组广播的机制
2019/07/12 Python
Python实现的爬取豆瓣电影信息功能案例
2019/09/15 Python
基于Python解密仿射密码
2019/10/21 Python
python GUI库图形界面开发之PyQt5工具栏控件QToolBar的详细使用方法与实例
2020/02/28 Python
canvas绘制表情包的示例代码
2018/07/09 HTML / CSS
可爱的童装和鞋子:Fabkids
2019/08/16 全球购物
集世界奢侈品和设计师品牌的意大利精品买手店:Tessabit
2019/08/17 全球购物
学生拾金不昧表扬信
2014/01/21 职场文书
做一个有道德的人活动实施方案
2014/08/23 职场文书
滞留工资返还协议书
2014/10/19 职场文书
汽车质检员岗位职责
2015/04/08 职场文书
管理失职检讨书
2015/05/05 职场文书
小学生一年级(书信作文)
2019/08/13 职场文书
Python 阶乘详解
2021/10/05 Python