python jieba分词并统计词频后输出结果到Excel和txt文档方法


Posted in Python onFebruary 11, 2018

前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。

让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的。

运行环境:

  1. 安装python2.7.13:https://www.python.org/downloads/release/python-2713/
  2. 安装jieba:pip install jieba
  3. 安装xlwt:pip install xlwt

具体代码如下:

#!/usr/bin/python 
# -*- coding:utf-8 -*- 
 
import sys 
reload(sys) 
 
sys.setdefaultencoding('utf-8') 
 
import jieba 
import jieba.analyse 
import xlwt #写入Excel表的库 
 
if __name__=="__main__": 
 
 wbk = xlwt.Workbook(encoding = 'ascii') 
 sheet = wbk.add_sheet("wordCount")#Excel单元格名字 
 word_lst = [] 
 key_list=[] 
 for line in open('1.txt'):#1.txt是需要分词统计的文档 
 
  item = line.strip('\n\r').split('\t') #制表格切分 
  # print item 
  tags = jieba.analyse.extract_tags(item[0]) #jieba分词 
  for t in tags: 
   word_lst.append(t) 
 
 word_dict= {} 
 with open("wordCount.txt",'w') as wf2: #打开文件 
 
  for item in word_lst: 
   if item not in word_dict: #统计数量 
    word_dict[item] = 1 
   else: 
    word_dict[item] += 1 
 
  orderList=list(word_dict.values()) 
  orderList.sort(reverse=True) 
  # print orderList 
  for i in range(len(orderList)): 
   for key in word_dict: 
    if word_dict[key]==orderList[i]: 
     wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 
     key_list.append(key) 
     word_dict[key]=0 
  
  
 for i in range(len(key_list)): 
  sheet.write(i, 1, label = orderList[i]) 
  sheet.write(i, 0, label = key_list[i]) 
 wbk.save('wordCount.xls') #保存为 wordCount.xls文件

1.txt是你需要分词统计的文本内容,最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果

python jieba分词并统计词频后输出结果到Excel和txt文档方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python判断、获取一张图片主色调的2个实例
Apr 10 Python
更改Python命令行交互提示符的方法
Jan 14 Python
python使用生成器实现可迭代对象
Mar 20 Python
python如何在循环引用中管理内存
Mar 20 Python
win10 64bit下python NLTK安装教程
Sep 19 Python
浅谈Python采集网页时正则表达式匹配换行符的问题
Dec 20 Python
Python何时应该使用Lambda函数
Jul 02 Python
使用django实现一个代码发布系统
Jul 18 Python
使用apiDoc实现python接口文档编写
Nov 19 Python
浅谈python中频繁的print到底能浪费多长时间
Feb 21 Python
基于python爬取有道翻译过程图解
Mar 31 Python
关于Python解包知识点总结
May 05 Python
代码讲解Python对Windows服务进行监控
Feb 11 #Python
django 按时间范围查询数据库实例代码
Feb 11 #Python
python实现媒体播放器功能
Feb 11 #Python
python使用pycharm环境调用opencv库
Feb 11 #Python
Python元组及文件核心对象类型详解
Feb 11 #Python
详解Python核心对象类型字符串
Feb 11 #Python
python使用json序列化datetime类型实例解析
Feb 11 #Python
You might like
PHP使用mysql_fetch_object从查询结果中获取对象集的方法
2015/03/18 PHP
javascript实现上传图片前的预览(TX的面试题)
2007/08/20 Javascript
JavaScript Sort 表格排序
2009/10/31 Javascript
12个非常有创意的JavaScript小游戏
2010/03/18 Javascript
JQuery为textarea添加maxlength属性的代码
2010/04/07 Javascript
jquery批量设置属性readonly和disabled的方法
2014/01/24 Javascript
JavaScript中操作字符串之localeCompare()方法的使用
2015/06/06 Javascript
freemarker判断对象是否为空的方法
2015/08/13 Javascript
深入浅析AngularJS中的module(模块)
2016/01/04 Javascript
JavaScript性能优化总结之加载与执行
2016/08/11 Javascript
jquery动态创建div与input的实例代码
2016/10/12 Javascript
vue调用高德地图实例代码
2017/04/28 Javascript
bootstrap table使用入门基本用法
2017/05/24 Javascript
js 简易版滚动条实例(适用于移动端H5开发)
2017/06/26 Javascript
javascript基于牛顿迭代法实现求浮点数的平方根【递归原理】
2017/09/28 Javascript
微信小程序实现多宫格抽奖活动
2020/04/15 Javascript
jquery radio 动态控制选中失效问题的解决方法
2018/02/28 jQuery
关闭Vue计算属性自带的缓存功能方法
2018/03/02 Javascript
webpack多入口多出口的实现方法
2018/08/17 Javascript
angular 实现同步验证器跨字段验证的方法
2019/04/11 Javascript
利用原生JavaScript实现造日历轮子实例代码
2019/05/08 Javascript
小程序封装路由文件和路由方法(5种全解析)
2019/05/26 Javascript
[30:51]DOTA2上海特级锦标赛主赛事日 - 3 胜者组第二轮#1Liquid VS MVP.Phx第一局
2016/03/04 DOTA
Python实现简易Web爬虫详解
2018/01/03 Python
2018年Python值得关注的开源库、工具和开发者(总结篇)
2018/01/04 Python
解决python爬虫中有中文的url问题
2018/05/11 Python
解决python升级引起的pip执行错误的问题
2018/06/12 Python
在python中实现强制关闭线程的示例
2019/01/22 Python
Python3中configparser模块读写ini文件并解析配置的用法详解
2020/02/18 Python
python将YUV420P文件转PNG图片格式的两种方法
2021/01/22 Python
python 利用panda 实现列联表(交叉表)
2021/02/06 Python
技校教师求职简历的自我评价
2013/10/20 职场文书
幼儿园师德演讲稿
2014/05/06 职场文书
竞选大学学委演讲稿
2014/09/13 职场文书
司机工作自我鉴定
2014/09/19 职场文书
浅谈golang 中time.After释放的问题
2021/05/05 Golang