python 文本单词提取和词频统计的实例


Posted in Python onDecember 22, 2018

这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。

操作:

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码:

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

以上这篇python 文本单词提取和词频统计的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中查看变量内存地址的方法
May 05 Python
Python中基本的日期时间处理的学习教程
Oct 16 Python
win10系统中安装scrapy-1.1
Jul 03 Python
python 循环遍历字典元素的简单方法
Sep 11 Python
Python爬虫实例_城市公交网络站点数据的爬取方法
Jan 10 Python
Random 在 Python 中的使用方法
Aug 09 Python
Python实现的字典排序操作示例【按键名key与键值value排序】
Dec 21 Python
python实现合并两个排序的链表
Mar 03 Python
深入浅析Python 中 is 语法带来的误解
May 07 Python
Django处理Ajax发送的Get请求代码详解
Jul 29 Python
Spring Cloud Feign高级应用实例详解
Dec 10 Python
logging level级别介绍
Feb 21 Python
python 删除字符串中连续多个空格并保留一个的方法
Dec 22 #Python
Python函数装饰器实现方法详解
Dec 22 #Python
使用python对文件中的单词进行提取的方法示例
Dec 21 #Python
Python类装饰器实现方法详解
Dec 21 #Python
Python实现的字典排序操作示例【按键名key与键值value排序】
Dec 21 #Python
Python简单获取二维数组行列数的方法示例
Dec 21 #Python
python进行TCP端口扫描的实现
Dec 21 #Python
You might like
php字符串截取中文截取2,单字节截取模式
2007/12/10 PHP
PHP 批量更新网页内容实现代码
2010/01/05 PHP
将CMYK颜色值和RGB颜色相互转换的PHP代码
2014/07/28 PHP
PHP 实现的将图片转换为TXT
2015/10/21 PHP
PHP二维数组矩形转置实例
2016/07/20 PHP
php web环境和命令行环境下查找php.ini的位置
2019/07/17 PHP
JavaScript加强之自定义callback示例
2013/09/21 Javascript
JS 页面计时器示例代码
2013/10/28 Javascript
js怎么判断flash swf文件是否加载完毕
2014/08/14 Javascript
AngularJS实现表单验证
2015/01/28 Javascript
js上传图片及预览功能实例分析
2015/04/24 Javascript
JS+CSS实现简单的二级下拉导航菜单效果
2015/09/21 Javascript
jQuery dataTables与jQuery UI 对话框dialog的使用教程
2016/09/02 Javascript
node.js 抓取代理ip实例代码
2017/04/30 Javascript
VUE多层路由嵌套实现代码
2017/05/15 Javascript
node.js中express中间件body-parser的介绍与用法详解
2017/05/23 Javascript
ionic2屏幕适配实现适配手机、平板等设备的示例代码
2017/08/11 Javascript
使用nvm管理不同版本的node与npm的方法
2017/10/31 Javascript
详解vue项目的构建,打包,发布全过程
2017/11/23 Javascript
修改node.js默认的npm安装目录实例
2018/05/15 Javascript
vue实现动态添加数据滚动条自动滚动到底部的示例代码
2018/07/06 Javascript
小程序异步问题之多个网络请求依次执行并依次收集请求结果
2019/05/05 Javascript
vue 路由meta 设置导航隐藏与显示功能的示例代码
2020/09/04 Javascript
OpenLayer学习之自定义测量控件
2020/09/28 Javascript
python网络编程学习笔记(五):socket的一些补充
2014/06/09 Python
python 3.7.4 安装 opencv的教程
2019/10/10 Python
python实现简单俄罗斯方块
2020/03/13 Python
快速创建python 虚拟环境
2020/11/28 Python
Python之qq自动发消息的示例代码
2021/02/18 Python
美国电视购物:QVC
2017/02/06 全球购物
为您搜罗全球潮流時尚品牌:HBX
2019/12/04 全球购物
浙江文明网签名寄语
2014/01/18 职场文书
护士辞职信模板
2014/01/20 职场文书
预备党员对照检查材料思想汇报
2014/09/24 职场文书
文案策划岗位职责
2015/02/11 职场文书
优质服务标语口号
2015/12/26 职场文书