Python英文文章词频统计(14份剑桥真题词频统计)


Posted in Python onOctober 13, 2019

Python剑桥真题词频统计

最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如数字,普通冠词等,博主较懒,未清楚干净。

Python代码如下:

import jieba
# 以只读方式打开text(即真题库)
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)

#统一为小写 
text = text.lower()

# 需要剔除的词汇列表,也可以用记事本的形式,添加一个打开记事本的语句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 这里使用列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
      'this','or','20','40','27','30','13','21','26','10','15','22',
      '32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
      '12','13','15','16','17','25','33','35','36','18','23','19','24',
      '38','29','34','37','000','...............................']

# 先进行分词
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采用全模式
#HMM:是否采用HMM模型

word_ = {}
for word in words:
  if (word.strip() not in stwlist):
    if len(word) > 1:
      if word != '\t':
        if word != '\r\n':
 # 计算词频
          if word in word_:
            word_[word] += 1
          else:
            word_[word] = 1

# 将结果保存为元组
word_freq = []
for word, freq in word_.items():
  word_freq.append((word, freq))

# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)

#输出前3500个词汇
for i in range(3500):
  word, freq = word_freq[i]
  print('{0:10}{1:5}'.format(word, freq))

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python算法学习之基数排序实例
Dec 18 Python
python处理中文编码和判断编码示例
Feb 26 Python
python数据结构之二叉树的建立实例
Apr 29 Python
python中判断文件编码的chardet(实例讲解)
Dec 21 Python
基于PyQt4和PySide实现输入对话框效果
Feb 27 Python
wxpython绘制圆角窗体
Nov 18 Python
Python求正态分布曲线下面积实例
Nov 20 Python
详解python内置模块urllib
Sep 09 Python
python跨文件使用全局变量的实现
Nov 17 Python
python实现登录与注册系统
Nov 30 Python
python 爬虫请求模块requests详解
Dec 04 Python
pytorch 权重weight 与 梯度grad 可视化操作
Jun 05 Python
Python 转换RGB颜色值的示例代码
Oct 13 #Python
Django中自定义查询对象的具体使用
Oct 13 #Python
PyCharm导入python项目并配置虚拟环境的教程详解
Oct 13 #Python
Python 用三行代码提取PDF表格数据
Oct 13 #Python
Python3离线安装Requests模块问题
Oct 13 #Python
详解使用Python下载文件的几种方法
Oct 13 #Python
Python中输入和输出(打印)数据实例方法
Oct 13 #Python
You might like
MYSQL环境变量设置方法
2007/01/15 PHP
PHP管理内存函数 memory_get_usage()使用介绍
2012/09/23 PHP
两种设置php载入页面时编码的方法
2014/07/29 PHP
PHP使用fopen与file_get_contents读取文件实例分享
2016/03/04 PHP
laravel 框架实现无限级分类的方法示例
2019/10/31 PHP
非常不错的一个javascript 类
2006/11/07 Javascript
js innerHTML 的一些问题的解决方法
2008/06/22 Javascript
javascript动画浅析
2012/08/30 Javascript
Eclipse下jQuery文件报错出现错误提示红叉
2014/01/13 Javascript
LABjs、RequireJS、SeaJS的区别
2014/03/04 Javascript
Node.js操作Firebird数据库教程
2016/03/04 Javascript
js css+html实现简单的日历
2016/07/14 Javascript
AngularJS Bootstrap详细介绍及实例代码
2016/07/28 Javascript
JS简单获取客户端IP地址的方法【调用搜狐接口】
2016/09/05 Javascript
input框中的name和id的区别
2016/11/16 Javascript
浅谈vue项目优化之页面的按需加载(vue+webpack)
2017/12/11 Javascript
使用Vue如何写一个双向数据绑定(面试常见)
2018/04/20 Javascript
ng-events类似ionic中Events的angular全局事件
2018/09/05 Javascript
vue 项目地址去掉 #的方法
2018/10/20 Javascript
Vue实现商品详情页的评价列表功能
2019/09/04 Javascript
[00:02]DOTA2新版本使用PA至宝后暴击展示
2014/11/19 DOTA
python fabric实现远程操作和部署示例
2014/03/25 Python
Python中实现三目运算的方法
2015/06/21 Python
Python实现将Excel转换成为image的方法
2018/10/23 Python
Python爬虫学习之翻译小程序
2019/07/30 Python
PyQT5 emit 和 connect的用法详解
2019/12/13 Python
python GUI库图形界面开发之PyQt5输入对话框QInputDialog详细使用方法与实例
2020/02/27 Python
详解anaconda安装步骤
2020/11/23 Python
如何用tempfile库创建python进程中的临时文件
2021/01/28 Python
Booking.com荷兰:全球酒店网上预订
2017/08/22 全球购物
意大利奢侈品多品牌集合店:TheDoubleF
2019/08/24 全球购物
PyQt QMainWindow的使用示例
2021/03/24 Python
2014年电工工作总结
2014/11/20 职场文书
《梅花魂》教学反思
2016/02/18 职场文书
2019公司管理制度
2019/04/19 职场文书
JS前端轻量fabric.js系列物体基类
2022/08/05 Javascript