python 文本单词提取和词频统计的实例


Posted in Python onDecember 22, 2018

这些对文本的操作经常用到, 那我就总结一下。 陆续补充。。。

操作:

strip_html(cls, text) 去除html标签

separate_words(cls, text, min_lenth=3) 文本提取

get_words_frequency(cls, words_list) 获取词频

源码:

class DocProcess(object):

 @classmethod
 def strip_html(cls, text):
  """
   Delete html tags in text.
   text is String
  """
  new_text = " "
  is_html = False
  for character in text:
   if character == "<":
    is_html = True
   elif character == ">":
    is_html = False
    new_text += " "
   elif is_html is False:
    new_text += character
  return new_text

 @classmethod
 def separate_words(cls, text, min_lenth=3):
  """
   Separate text into words in list.
  """
  splitter = re.compile("\\W+")
  return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]

 @classmethod
 def get_words_frequency(cls, words_list):
  """
   Get frequency of words in words_list.
   return a dict.
  """
  num_words = {}
  for word in words_list:
   num_words[word] = num_words.get(word, 0) + 1
  return num_words

以上这篇python 文本单词提取和词频统计的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python2.7删除文件夹和删除文件代码实例
Dec 18 Python
Python中lambda的用法及其与def的区别解析
Jul 28 Python
Python的装饰器用法学习笔记
Jun 24 Python
Python常用算法学习基础教程
Apr 13 Python
python编程使用selenium模拟登陆淘宝实例代码
Jan 25 Python
Python读取excel中的图片完美解决方法
Jul 27 Python
python操作小程序云数据库实现简单的增删改查功能
Jun 06 Python
Python中*args和**kwargs的区别详解
Sep 17 Python
python matplotlib画盒图、子图解决坐标轴标签重叠的问题
Jan 19 Python
Python全面分析系统的时域特性和频率域特性
Feb 26 Python
pytorch之Resize()函数具体使用详解
Feb 27 Python
给numpy.array增加维度的超简单方法
Jun 02 Python
python 删除字符串中连续多个空格并保留一个的方法
Dec 22 #Python
Python函数装饰器实现方法详解
Dec 22 #Python
使用python对文件中的单词进行提取的方法示例
Dec 21 #Python
Python类装饰器实现方法详解
Dec 21 #Python
Python实现的字典排序操作示例【按键名key与键值value排序】
Dec 21 #Python
Python简单获取二维数组行列数的方法示例
Dec 21 #Python
python进行TCP端口扫描的实现
Dec 21 #Python
You might like
php flv视频时间获取函数
2010/06/29 PHP
解析MySql与Java的时间类型
2013/06/22 PHP
CI框架数据库查询之join用法分析
2016/05/18 PHP
php查找字符串中第一个非0的位置截取
2017/02/27 PHP
php处理多图上传压缩代码功能
2018/06/13 PHP
thinkPHP5.1框架中Request类四种调用方式示例
2019/08/03 PHP
Firefox中beforeunload事件的实现缺陷浅析
2012/05/03 Javascript
用js将内容复制到剪贴板兼容浏览器
2014/03/18 Javascript
如何编写高质量JS代码
2014/12/28 Javascript
thinkphp 表名 大小写 窍门
2015/02/01 Javascript
jQuery中$(function() {});问题详解
2015/08/10 Javascript
jquery的ajax提交form表单的两种方法小结(推荐)
2016/05/25 Javascript
Angularjs中使用layDate日期控件示例
2017/01/11 Javascript
JavaScript获取select中text值的方法
2017/02/13 Javascript
jQuery获取单选按钮radio选中值与去除所有radio选中状态的方法
2017/05/20 jQuery
微信小程序wx.getImageInfo()如何获取图片信息
2018/01/26 Javascript
vue 内置过滤器的使用总结(附加自定义过滤器)
2018/12/11 Javascript
Vue中实现回车键切换焦点的方法
2020/02/19 Javascript
pyramid配置session的方法教程
2013/11/27 Python
python解决js文件utf-8编码乱码问题(推荐)
2018/05/02 Python
Ubuntu18.04下python版本完美切换的解决方法
2019/06/14 Python
python 中的列表生成式、生成器表达式、模块导入
2019/06/19 Python
Python2.7版os.path.isdir中文路径返回false的解决方法
2019/06/21 Python
python隐藏终端执行cmd命令的方法
2019/06/24 Python
对于Python深浅拷贝的理解
2019/07/29 Python
django执行数据库查询之后实现返回的结果集转json
2020/03/31 Python
详解通过focusout事件解决IOS键盘收起时界面不归位的问题
2019/07/18 HTML / CSS
AmazeUI在模态框中嵌入表单形成模态输入框
2020/08/20 HTML / CSS
介绍一下Linux文件的记录形式
2012/04/18 面试题
介绍一下except的用法和作用
2015/01/22 面试题
十岁生日家长答谢词
2014/01/17 职场文书
教育技术学专业职业规划书
2014/03/03 职场文书
平安校园建设方案
2014/05/02 职场文书
2016年第十九届推普周活动总结
2016/04/06 职场文书
Appium中scroll和drag_and_drop根据元素位置滑动
2022/02/15 Python
MySQL 分区表中分区键为什么必须是主键的一部分
2022/03/17 MySQL