Python英文文章词频统计(14份剑桥真题词频统计)


Posted in Python onOctober 13, 2019

Python剑桥真题词频统计

最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如数字,普通冠词等,博主较懒,未清楚干净。

Python代码如下:

import jieba
# 以只读方式打开text(即真题库)
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)

#统一为小写 
text = text.lower()

# 需要剔除的词汇列表,也可以用记事本的形式,添加一个打开记事本的语句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 这里使用列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
      'this','or','20','40','27','30','13','21','26','10','15','22',
      '32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
      '12','13','15','16','17','25','33','35','36','18','23','19','24',
      '38','29','34','37','000','...............................']

# 先进行分词
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采用全模式
#HMM:是否采用HMM模型

word_ = {}
for word in words:
  if (word.strip() not in stwlist):
    if len(word) > 1:
      if word != '\t':
        if word != '\r\n':
 # 计算词频
          if word in word_:
            word_[word] += 1
          else:
            word_[word] = 1

# 将结果保存为元组
word_freq = []
for word, freq in word_.items():
  word_freq.append((word, freq))

# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)

#输出前3500个词汇
for i in range(3500):
  word, freq = word_freq[i]
  print('{0:10}{1:5}'.format(word, freq))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
初学python数组的处理代码
Jan 04 Python
基python实现多线程网页爬虫
Sep 06 Python
20个常用Python运维库和模块
Feb 12 Python
Python爬豆瓣电影实例
Feb 23 Python
15行Python代码带你轻松理解令牌桶算法
Mar 21 Python
python最长回文串算法
Jun 04 Python
浅谈Scrapy网络爬虫框架的工作原理和数据采集
Feb 07 Python
Django 实现 Websocket 广播、点对点发送消息的代码
Jun 03 Python
零基础学Python之前需要学c语言吗
Jul 21 Python
详解pycharm连接远程linux服务器的虚拟环境的方法
Nov 13 Python
Python实现学生管理系统并生成exe可执行文件详解流程
Jan 22 Python
Python 第三方库 openpyxl 的安装过程
Dec 24 Python
Python 转换RGB颜色值的示例代码
Oct 13 #Python
Django中自定义查询对象的具体使用
Oct 13 #Python
PyCharm导入python项目并配置虚拟环境的教程详解
Oct 13 #Python
Python 用三行代码提取PDF表格数据
Oct 13 #Python
Python3离线安装Requests模块问题
Oct 13 #Python
详解使用Python下载文件的几种方法
Oct 13 #Python
Python中输入和输出(打印)数据实例方法
Oct 13 #Python
You might like
仿dedecms下拉分页样式修改的thinkphp分页类实例
2014/10/30 PHP
快速保存网页中所有图片的方法
2006/06/23 Javascript
js 日期转换成中文格式的函数
2009/07/07 Javascript
Jquery Select操作方法集合脚本之家特别版
2010/05/17 Javascript
jquery radio 操作代码
2011/03/16 Javascript
下载文件个别浏览器文件名乱码解决办法
2013/03/19 Javascript
借助script进行Http跨域请求:JSONP实现原理及代码
2013/03/19 Javascript
jQuery实现div浮动层跟随页面滚动效果
2014/02/11 Javascript
js实现仿MSN带关闭功能的右下角弹窗代码
2015/09/04 Javascript
jquery对dom节点的操作【推荐】
2016/04/15 Javascript
JavaScript实现类似淘宝的购物车效果
2017/03/16 Javascript
解决JSON.stringify()自动将中文转译成unicode的问题
2018/01/05 Javascript
Express之托管静态文件的方法
2018/06/01 Javascript
详解Vue项目中实现锚点定位
2019/04/24 Javascript
JavaScript数组排序小程序实现解析
2020/01/13 Javascript
微信小程序实现上拉加载功能示例【加载更多数据/触底加载/点击加载更多数据】
2020/05/29 Javascript
解决Echarts2竖直datazoom滑动后显示数据不全的问题
2020/07/20 Javascript
Python FTP操作类代码分享
2014/05/13 Python
Python中DJANGO简单测试实例
2015/05/11 Python
Python编写电话薄实现增删改查功能
2016/05/07 Python
Flask数据库迁移简单介绍
2017/10/24 Python
python sorted函数的小练习及解答
2019/09/18 Python
python GUI库图形界面开发之PyQt5开发环境配置与基础使用
2020/02/25 Python
Python类class参数self原理解析
2020/11/19 Python
Python 调用 ES、Solr、Phoenix的示例代码
2020/11/23 Python
CSS3 实现侧边栏展开收起动画
2014/12/22 HTML / CSS
CSS3 filter(滤镜)实现网页灰色或者黑色模式的示例代码
2021/02/24 HTML / CSS
Finishline官网:美国一家领先的运动品牌鞋类、服装零售商
2016/07/20 全球购物
英国和爱尔兰的自炊式豪华度假小屋:Rural Retreats
2018/06/08 全球购物
Boden英国官网:英国知名原创时装品牌
2018/11/06 全球购物
面向对象编程OOP的优点
2013/01/22 面试题
如何从一个文件档案的尾端新增记录
2016/12/02 面试题
班训口号大全
2014/06/18 职场文书
如何签定毕业生就业协议书
2014/09/28 职场文书
自主招生自荐信怎么写
2015/03/24 职场文书
民事辩护词范文
2015/05/21 职场文书