使用python进行文本预处理和提取特征的实例


Posted in Python onJune 05, 2018

如下所示:

<strong><span style="font-size:14px;">文本过滤</span></strong>
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点
result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文 
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点和数字 
result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和数字

文本去除两个以上空格

content=re.sub(r'\s{2,}', '', content)

bas4编码变成中文

def bas4_decode(bas4_content): 
 decodestr= base64.b64decode(bas4_content) 
 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", decodestr.decode())#只保留中文和标点和数字 
 return result

文本去停用词

def text_to_wordlist(text): 
 result = re.sub(r'[^\u4e00-\u9fa5]', "",text) 
 f1_seg_list = jieba.cut(result)#需要添加一个词典,来弥补结巴分词中没有的词语,从而保证更高的正确率 
 f_stop = codecs.open(".\stopword.txt","r","utf-8") 
 try: 
  f_stop_text = f_stop.read() 
 finally: 
  f_stop.close() 
 f_stop_seg_list = f_stop_text.split() 
 
 test_words = [] 
 
 for myword in f1_seg_list: 
  if myword not in f_stop_seg_list: 
   test_words.append(myword) 
    
 return test_words

文本特征提取

import jieba 
import jieba.analyse 
import numpy as np 
#import json 
import re

def Textrank(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyList=jieba.analyse.textrank('|'.join(seg), topK=10, withWeight=False) 
 return keyList

def TF_IDF(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyWord = jieba.analyse.extract_tags( 
  '|'.join(seg), topK=10, withWeight=False, allowPOS=())#关键词提取,在这里对jieba的tfidf.py进行了修改 
 return keyWord

以上这篇使用python进行文本预处理和提取特征的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Python编写一个基于终端的实现翻译的脚本
Apr 24 Python
python检查字符串是否是正确ISBN的方法
Jul 11 Python
django1.8使用表单上传文件的实现方法
Nov 04 Python
网站渗透常用Python小脚本查询同ip网站
May 08 Python
python实现淘宝秒杀聚划算抢购自动提醒源码
Jun 23 Python
numpy中的高维数组转置实例
Apr 17 Python
对python中数组的del,remove,pop区别详解
Nov 07 Python
pyqt5实现绘制ui,列表窗口,滚动窗口显示图片的方法
Jun 20 Python
elasticsearch python 查询的两种方法
Aug 04 Python
python应用文件读取与登录注册功能
Sep 23 Python
python构造IP报文实例
May 05 Python
Python使用eval函数执行动态标表达式过程详解
Oct 17 Python
python 用正则表达式筛选文本信息的实例
Jun 05 #Python
python和shell获取文本内容的方法
Jun 05 #Python
python 查找文件名包含指定字符串的方法
Jun 05 #Python
Python使用爬虫爬取静态网页图片的方法详解
Jun 05 #Python
Python实现的读写json文件功能示例
Jun 05 #Python
python计算日期之间的放假日期
Jun 05 #Python
python检索特定内容的文本文件实例
Jun 05 #Python
You might like
落伍首发 php+mysql 采用ajax技术的 省 市 地 3级联动无刷新菜单 源码
2006/12/16 PHP
PHP XML操作的各种方法解析(比较详细)
2010/06/17 PHP
详解Yii2高级版引入bootstrap.js的一个办法
2017/03/21 PHP
Mootools 1.2教程 Fx.Tween的使用
2009/09/15 Javascript
google 搜索框添加关键字实现代码
2010/04/24 Javascript
js parseInt(&quot;08&quot;)未指定进位制问题
2010/06/19 Javascript
jquery Tab效果和动态加载的简单实例
2013/12/11 Javascript
JS实现文字链接感应鼠标淡入淡出改变颜色的方法
2015/02/26 Javascript
使用Jquery实现每日签到功能
2015/04/03 Javascript
通过实例理解javascript中没有函数重载的概念
2015/06/03 Javascript
理解JavaScript中worker事件api
2015/12/25 Javascript
一道优雅面试题分析js中fn()和return fn()的区别
2016/07/05 Javascript
纯JS实现表单验证实例
2016/12/24 Javascript
jQuery实现的分页功能示例
2017/01/22 Javascript
jQuery自定义图片上传插件实例代码
2017/04/04 jQuery
bootstrap中selectpicker下拉框使用方法实例
2018/03/22 Javascript
js 数组详细操作方法及解析合集
2018/06/01 Javascript
vue实现手机号码的校验实例代码(防抖函数的应用场景)
2019/09/05 Javascript
layer.js之回调销毁对话框的例子
2019/09/11 Javascript
使用Python脚本将绝对url替换为相对url的教程
2015/04/24 Python
PyQt5主窗口动态加载Widget实例代码
2018/02/07 Python
python实现word 2007文档转换为pdf文件
2018/03/15 Python
Python玩转Excel的读写改实例
2019/02/22 Python
Jacobi迭代算法的Python实现详解
2019/06/29 Python
Python描述符descriptor使用原理解析
2020/03/21 Python
pandas apply多线程实现代码
2020/08/17 Python
详解Pycharm与anaconda安装配置指南
2020/08/25 Python
python温度转换华氏温度实现代码
2020/12/06 Python
写一个方法1000的阶乘
2012/11/21 面试题
教师节演讲稿
2014/05/06 职场文书
有子女的离婚协议书怎么写(范本)
2014/09/29 职场文书
党员干部四风问题整改措施思想汇报
2014/10/12 职场文书
开展批评与自我批评心得体会
2014/10/17 职场文书
模范教师材料大全
2014/12/16 职场文书
前台接待员岗位职责
2015/04/15 职场文书
2016思想纪律作风整顿心得体会
2016/01/23 职场文书