python jieba分词并统计词频后输出结果到Excel和txt文档方法


Posted in Python onFebruary 11, 2018

前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。

让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的。

运行环境:

  1. 安装python2.7.13:https://www.python.org/downloads/release/python-2713/
  2. 安装jieba:pip install jieba
  3. 安装xlwt:pip install xlwt

具体代码如下:

#!/usr/bin/python 
# -*- coding:utf-8 -*- 
 
import sys 
reload(sys) 
 
sys.setdefaultencoding('utf-8') 
 
import jieba 
import jieba.analyse 
import xlwt #写入Excel表的库 
 
if __name__=="__main__": 
 
 wbk = xlwt.Workbook(encoding = 'ascii') 
 sheet = wbk.add_sheet("wordCount")#Excel单元格名字 
 word_lst = [] 
 key_list=[] 
 for line in open('1.txt'):#1.txt是需要分词统计的文档 
 
  item = line.strip('\n\r').split('\t') #制表格切分 
  # print item 
  tags = jieba.analyse.extract_tags(item[0]) #jieba分词 
  for t in tags: 
   word_lst.append(t) 
 
 word_dict= {} 
 with open("wordCount.txt",'w') as wf2: #打开文件 
 
  for item in word_lst: 
   if item not in word_dict: #统计数量 
    word_dict[item] = 1 
   else: 
    word_dict[item] += 1 
 
  orderList=list(word_dict.values()) 
  orderList.sort(reverse=True) 
  # print orderList 
  for i in range(len(orderList)): 
   for key in word_dict: 
    if word_dict[key]==orderList[i]: 
     wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 
     key_list.append(key) 
     word_dict[key]=0 
  
  
 for i in range(len(key_list)): 
  sheet.write(i, 1, label = orderList[i]) 
  sheet.write(i, 0, label = key_list[i]) 
 wbk.save('wordCount.xls') #保存为 wordCount.xls文件

1.txt是你需要分词统计的文本内容,最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果

python jieba分词并统计词频后输出结果到Excel和txt文档方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python使用pil进行图像处理(等比例压缩、裁剪)实例代码
Dec 11 Python
Python3中bytes类型转换为str类型
Sep 27 Python
Python判断对象是否相等及eq函数的讲解
Feb 25 Python
由Python编写的MySQL管理工具代码实例
Apr 09 Python
Django后端接收嵌套Json数据及解析详解
Jul 17 Python
python实现的批量分析xml标签中各个类别个数功能示例
Dec 30 Python
Python调用Windows命令打印文件
Feb 07 Python
matlab中imadjust函数的作用及应用举例
Feb 27 Python
Python random库使用方法及异常处理方案
Mar 02 Python
python可以用哪些数据库
Jun 22 Python
利用python下载scihub成文献为PDF操作
Jul 09 Python
python 常见的排序算法实现汇总
Aug 21 Python
代码讲解Python对Windows服务进行监控
Feb 11 #Python
django 按时间范围查询数据库实例代码
Feb 11 #Python
python实现媒体播放器功能
Feb 11 #Python
python使用pycharm环境调用opencv库
Feb 11 #Python
Python元组及文件核心对象类型详解
Feb 11 #Python
详解Python核心对象类型字符串
Feb 11 #Python
python使用json序列化datetime类型实例解析
Feb 11 #Python
You might like
PHP下判断网址是否有效的代码
2011/10/08 PHP
ThinkPHP5.0 图片上传生成缩略图实例代码说明
2018/06/20 PHP
PHP如何防止用户重复提交表单
2020/12/09 PHP
JQuery 遮罩层实现(mask)实现代码
2010/01/09 Javascript
客户端 使用XML DOM加载json数据的方法
2010/09/28 Javascript
一个基于jquery的文本框记数器
2012/09/19 Javascript
表单元素的submit()方法和onsubmit事件应用概述
2013/02/01 Javascript
jquery 延迟执行实例介绍
2013/08/20 Javascript
jquery cookie的用法总结
2013/11/18 Javascript
Node.js 条形码识别程序构建思路详解
2016/02/14 Javascript
基于jquery插件实现拖拽删除图片功能
2020/08/27 Javascript
前端开发必知的15个jQuery小技巧
2017/01/22 Javascript
AngularJS折叠菜单实现方法示例
2017/05/18 Javascript
基于vue-video-player自定义播放器的方法
2018/03/21 Javascript
基于javascript canvas实现五子棋游戏
2020/07/08 Javascript
Vue管理系统前端之组件拆分封装详解
2020/08/23 Javascript
python网络编程学习笔记(三):socket网络服务器
2014/06/09 Python
python实现域名系统(DNS)正向查询的方法
2016/04/19 Python
Windows 64位下python3安装nltk模块
2018/09/19 Python
对dataframe数据之间求补集的实例详解
2019/01/30 Python
Python读取分割压缩TXT文本文件实例
2020/02/14 Python
基于FME使用Python过程图解
2020/05/13 Python
基于Python脚本实现邮件报警功能
2020/05/20 Python
CSS3实现滚动条动画效果代码分享
2016/08/03 HTML / CSS
HTML5 input元素类型:email及url介绍
2013/08/13 HTML / CSS
世界领先的以旅馆为主的在线预订平台:Hostelworld
2016/10/09 全球购物
Manuka Doctor美国官网:麦卢卡蜂蜜和蜂毒护肤
2016/12/25 全球购物
Lime Crime官网:美国一家主打梦幻精灵系的彩妆品牌
2019/03/22 全球购物
销售人员求职的自我评价分享
2014/03/15 职场文书
2014年教研活动总结范文
2014/04/26 职场文书
社区助残日活动总结
2014/08/29 职场文书
2014年党小组工作总结
2014/12/20 职场文书
学雷锋团日活动总结
2015/05/06 职场文书
数据库连接池
2021/04/06 MySQL
Android Studio实现带三角函数对数运算功能的高级计算器
2022/05/20 Java/Android
Python使用Web框架Flask开发项目
2022/06/01 Python