python jieba分词并统计词频后输出结果到Excel和txt文档方法


Posted in Python onFebruary 11, 2018

前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率。

让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的。

运行环境:

  1. 安装python2.7.13:https://www.python.org/downloads/release/python-2713/
  2. 安装jieba:pip install jieba
  3. 安装xlwt:pip install xlwt

具体代码如下:

#!/usr/bin/python 
# -*- coding:utf-8 -*- 
 
import sys 
reload(sys) 
 
sys.setdefaultencoding('utf-8') 
 
import jieba 
import jieba.analyse 
import xlwt #写入Excel表的库 
 
if __name__=="__main__": 
 
 wbk = xlwt.Workbook(encoding = 'ascii') 
 sheet = wbk.add_sheet("wordCount")#Excel单元格名字 
 word_lst = [] 
 key_list=[] 
 for line in open('1.txt'):#1.txt是需要分词统计的文档 
 
  item = line.strip('\n\r').split('\t') #制表格切分 
  # print item 
  tags = jieba.analyse.extract_tags(item[0]) #jieba分词 
  for t in tags: 
   word_lst.append(t) 
 
 word_dict= {} 
 with open("wordCount.txt",'w') as wf2: #打开文件 
 
  for item in word_lst: 
   if item not in word_dict: #统计数量 
    word_dict[item] = 1 
   else: 
    word_dict[item] += 1 
 
  orderList=list(word_dict.values()) 
  orderList.sort(reverse=True) 
  # print orderList 
  for i in range(len(orderList)): 
   for key in word_dict: 
    if word_dict[key]==orderList[i]: 
     wf2.write(key+' '+str(word_dict[key])+'\n') #写入txt文档 
     key_list.append(key) 
     word_dict[key]=0 
  
  
 for i in range(len(key_list)): 
  sheet.write(i, 1, label = orderList[i]) 
  sheet.write(i, 0, label = key_list[i]) 
 wbk.save('wordCount.xls') #保存为 wordCount.xls文件

1.txt是你需要分词统计的文本内容,最后会生成wordCount.txt和wordCount.xls两个文件。下图是最后结果

python jieba分词并统计词频后输出结果到Excel和txt文档方法

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python构造函数及解构函数介绍
Feb 26 Python
python日志记录模块实例及改进
Feb 12 Python
Python编写Windows Service服务程序
Jan 04 Python
Python实现的朴素贝叶斯算法经典示例【测试可用】
Jun 13 Python
python字典改变value值方法总结
Jun 21 Python
python3实现微型的web服务器
Sep 03 Python
python分布式计算dispy的使用详解
Dec 22 Python
python实现随机加减法生成器
Feb 24 Python
使用python实现飞机大战游戏
Mar 23 Python
Python内置函数property()如何使用
Sep 01 Python
python3 re返回形式总结
Nov 20 Python
Python偏函数实现原理及应用
Nov 20 Python
代码讲解Python对Windows服务进行监控
Feb 11 #Python
django 按时间范围查询数据库实例代码
Feb 11 #Python
python实现媒体播放器功能
Feb 11 #Python
python使用pycharm环境调用opencv库
Feb 11 #Python
Python元组及文件核心对象类型详解
Feb 11 #Python
详解Python核心对象类型字符串
Feb 11 #Python
python使用json序列化datetime类型实例解析
Feb 11 #Python
You might like
PHP的error_reporting错误级别变量对照表
2014/07/08 PHP
php简单分页类实现方法
2015/02/26 PHP
php 获取文件行数的方法总结
2016/10/11 PHP
将函数的实际参数转换成数组的方法
2010/01/25 Javascript
jQuery版仿Path菜单效果
2011/12/15 Javascript
js换图片效果可进行定时操作
2014/06/09 Javascript
使用ajaxfileupload.js实现ajax上传文件php版
2014/06/26 Javascript
Windows系统下Node.js的简单入门教程
2015/06/23 Javascript
jQuery Easyui加载表格出错时在表格中间显示自定义的提示内容
2016/12/08 Javascript
JavaScript、C# URL编码、解码总结
2017/01/21 Javascript
基于JavaScript实现下拉列表左右移动代码
2017/02/07 Javascript
微信小程序 PHP生成带参数二维码
2017/02/21 Javascript
zTree实现节点修改的实时刷新功能
2017/03/20 Javascript
jQuery树插件zTree使用方法详解
2017/05/02 jQuery
vue axios post发送复杂对象问题
2019/06/04 Javascript
JavaScript自动生成 年月范围 选择功能完整示例【基于jQuery插件】
2019/09/03 jQuery
vue大型项目之分模块运行/打包的实现
2020/09/21 Javascript
python复制文件的方法实例详解
2015/05/22 Python
Python多进程并发(multiprocessing)用法实例详解
2015/06/02 Python
Python 包含汉字的文件读写之每行末尾加上特定字符
2016/12/12 Python
python绘制散点图并标记序号的方法
2018/12/11 Python
对Python 两大环境管理神器 pyenv 和 virtualenv详解
2018/12/31 Python
如何使用Python进行OCR识别图片中的文字
2019/04/01 Python
Python学习笔记之For循环用法详解
2019/08/14 Python
Python 网络编程之TCP客户端/服务端功能示例【基于socket套接字】
2019/10/12 Python
pytorch绘制并显示loss曲线和acc曲线,LeNet5识别图像准确率
2020/01/02 Python
Python3操作MongoDB增册改查等方法详解
2020/02/10 Python
python利用Excel读取和存储测试数据完成接口自动化教程
2020/04/30 Python
canvas压缩图片以及卡片制作的方法示例
2018/12/04 HTML / CSS
ReVive利维肤美国官网:RéVive Skincare
2018/04/18 全球购物
美国杰西潘尼官网:JCPenney
2019/06/12 全球购物
旅游市场营销方案
2014/03/09 职场文书
质量月口号
2014/06/20 职场文书
观看焦裕禄观后感
2015/06/09 职场文书
导盲犬小Q观后感
2015/06/11 职场文书
Go语言使用select{}阻塞main函数介绍
2021/04/25 Golang