Python实现的统计文章单词次数功能示例


Posted in Python onJuly 08, 2019

本文实例讲述了Python实现的统计文章单词次数功能。分享给大家供大家参考,具体如下:

题目是这样的:你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。

其实就是统计一篇文章出现最多的单词,但是要去除那些常见的连词、介词和谓语动词等,代码:

#coding=utf-8
import collections
import re
import os
useless_words=('the','a','an','and','by','of','in','on','is','to')
def get_important_word(file):
  f=open(file)
  word_counter=collections.Counter()
  for line in f:
    words=re.findall('\w+',line.lower())
    word_counter.update(words)
  f.close()
  most_important_word=word_counter.most_common(1)[0][0]
  count=2
  while(most_important_word in useless_words):
    most_important_word=word_counter.most_common(count)[count-1][0]
    count+=1
  num=word_counter.most_common(count)[count-1][1]
  print 'the most important word in %s is %s,it appears %d times'%(file,most_important_word,num)
if __name__=='__main__':
  filepath='.'
  for dirpath,dirname,dirfiles in os.walk(filepath):
    for file in dirfiles:
      if os.path.splitext(file)[1]=='.txt':
        abspath=os.path.join(dirpath,file)
        if os.path.isfile(abspath):
          get_important_word(abspath)

学习笔记:

collections模块,是python内建的模块,提供了许多有用的集合类。我们这里用到了Counter类和其中的most_common()方法

Python 相关文章推荐
python使用7z解压apk包的方法
Apr 18 Python
python实现爬虫下载美女图片
Jul 14 Python
python实现用户登录系统
May 21 Python
浅析Python中的getattr(),setattr(),delattr(),hasattr()
Jun 14 Python
Python优先队列实现方法示例
Sep 21 Python
Python3之读取连接过的网络并定位的方法
Apr 22 Python
matplotlib subplots 设置总图的标题方法
May 25 Python
python+influxdb+shell编写区域网络状况表
Jul 27 Python
对python特殊函数 __call__()的使用详解
Jul 02 Python
Python 实现opencv所使用的图片格式与 base64 转换
Jan 09 Python
Python matplotlib画图时图例说明(legend)放到图像外侧详解
May 16 Python
pytorch 移动端部署之helloworld的使用
Oct 30 Python
用python建立两个Y轴的XY曲线图方法
Jul 08 #Python
python绘制双Y轴折线图以及单Y轴双变量柱状图的实例
Jul 08 #Python
简单了解python的内存管理机制
Jul 08 #Python
python用for循环求和的方法总结
Jul 08 #Python
python面试题之列表声明实例分析
Jul 08 #Python
python 一个figure上显示多个图像的实例
Jul 08 #Python
Python3实现汉语转换为汉语拼音
Jul 08 #Python
You might like
php自定义函数call_user_func和call_user_func_array详解
2011/07/14 PHP
php实现字符串首字母大写和单词首字母大写的方法
2015/03/14 PHP
Ajax+PHP实现的模拟进度条功能示例
2019/02/11 PHP
YII框架页面缓存操作示例
2019/04/29 PHP
javascript实现动态侧边栏代码
2014/02/19 Javascript
JQuery实现防止退格键返回的方法
2015/02/12 Javascript
js实现单击图片放大图片的方法
2015/02/17 Javascript
jquery比较简洁的软键盘特效实现方法
2015/03/19 Javascript
Jquery数字上下滚动动态切换插件
2015/08/08 Javascript
基于Bootstrap的后台管理面板 Bootstrap Metro Dashboard
2016/06/17 Javascript
Javascript中浏览器窗口的基本操作总结
2016/08/18 Javascript
Vue.JS项目中5个经典Vuex插件
2017/11/28 Javascript
详解vue中v-model和v-bind绑定数据的异同
2020/08/10 Javascript
[02:44]2014DOTA2 国际邀请赛中国区预选赛 大神红毯秀
2014/05/25 DOTA
Python实现的检测web服务器健康状况的小程序
2014/09/17 Python
Python图算法实例分析
2016/08/13 Python
python数据结构之链表的实例讲解
2017/07/25 Python
详解python中@的用法
2019/03/27 Python
基于python分析你的上网行为 看看你平时上网都在干嘛
2019/08/13 Python
python 还原梯度下降算法实现一维线性回归
2020/10/22 Python
Pytest测试框架基本使用方法详解
2020/11/25 Python
python画图时设置分辨率和画布大小的实现(plt.figure())
2021/01/08 Python
使用Python爬取小姐姐图片(beautifulsoup法)
2021/02/11 Python
印度尼西亚在线时尚购物网站:ZALORA印尼
2016/08/02 全球购物
LivingSocial爱尔兰:爱尔兰本地优惠
2018/08/10 全球购物
Furla官网:意大利著名的皮革品牌
2019/08/06 全球购物
伊莱克斯(Electrolux)俄罗斯网上商店:瑞典家用电器品牌
2021/01/23 全球购物
SQL面试题
2013/04/30 面试题
会计助理的岗位职责
2013/11/29 职场文书
2014年应届大学生自我评价
2014/01/09 职场文书
应聘护理专业毕业自荐书范文
2014/02/12 职场文书
投标诚信承诺书
2014/05/26 职场文书
班级学雷锋活动总结
2014/06/26 职场文书
幼儿园爱国卫生月活动总结
2014/06/30 职场文书
中职生求职信
2014/07/01 职场文书
有限公司股东合作协议书
2014/10/29 职场文书