使用python进行文本预处理和提取特征的实例


Posted in Python onJune 05, 2018

如下所示:

<strong><span style="font-size:14px;">文本过滤</span></strong>
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点
result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文 
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", content)#只保留中文和标点和数字 
result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和数字

文本去除两个以上空格

content=re.sub(r'\s{2,}', '', content)

bas4编码变成中文

def bas4_decode(bas4_content): 
 decodestr= base64.b64decode(bas4_content) 
 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', "", decodestr.decode())#只保留中文和标点和数字 
 return result

文本去停用词

def text_to_wordlist(text): 
 result = re.sub(r'[^\u4e00-\u9fa5]', "",text) 
 f1_seg_list = jieba.cut(result)#需要添加一个词典,来弥补结巴分词中没有的词语,从而保证更高的正确率 
 f_stop = codecs.open(".\stopword.txt","r","utf-8") 
 try: 
  f_stop_text = f_stop.read() 
 finally: 
  f_stop.close() 
 f_stop_seg_list = f_stop_text.split() 
 
 test_words = [] 
 
 for myword in f1_seg_list: 
  if myword not in f_stop_seg_list: 
   test_words.append(myword) 
    
 return test_words

文本特征提取

import jieba 
import jieba.analyse 
import numpy as np 
#import json 
import re

def Textrank(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyList=jieba.analyse.textrank('|'.join(seg), topK=10, withWeight=False) 
 return keyList

def TF_IDF(content):
 result = re.sub(r'[^\u4e00-\u9fa5]', "",content)
 seg = jieba.cut(result) 
 jieba.analyse.set_stop_words('stopword.txt')
 keyWord = jieba.analyse.extract_tags( 
  '|'.join(seg), topK=10, withWeight=False, allowPOS=())#关键词提取,在这里对jieba的tfidf.py进行了修改 
 return keyWord

以上这篇使用python进行文本预处理和提取特征的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
玩转python爬虫之正则表达式
Feb 17 Python
Python实现二维数组输出为图片
Apr 03 Python
TensorFlow实现简单卷积神经网络
May 24 Python
通过python爬虫赚钱的方法
Jan 29 Python
Python爬虫库BeautifulSoup获取对象(标签)名,属性,内容,注释
Jan 25 Python
Python tkinter和exe打包的方法
Feb 05 Python
python读取hdfs上的parquet文件方式
Jun 06 Python
Python 没有main函数的原因
Jul 10 Python
Python自动巡检H3C交换机实现过程解析
Aug 14 Python
python根据字典的键来删除元素的方法
Aug 16 Python
Django启动时找不到mysqlclient问题解决方案
Nov 11 Python
python中添加模块导入路径的方法
Feb 03 Python
python 用正则表达式筛选文本信息的实例
Jun 05 #Python
python和shell获取文本内容的方法
Jun 05 #Python
python 查找文件名包含指定字符串的方法
Jun 05 #Python
Python使用爬虫爬取静态网页图片的方法详解
Jun 05 #Python
Python实现的读写json文件功能示例
Jun 05 #Python
python计算日期之间的放假日期
Jun 05 #Python
python检索特定内容的文本文件实例
Jun 05 #Python
You might like
PHP.MVC的模板标签系统(四)
2006/09/05 PHP
利用PHP和AJAX创建RSS聚合器的代码
2007/03/13 PHP
PHP4与PHP5的时间格式问题
2008/02/17 PHP
rephactor 优秀的PHP的重构工具
2011/06/09 PHP
php变量与字符串的增删改查操作示例
2020/05/07 PHP
laravel开发环境homestead搭建过程详解
2020/07/03 PHP
ie 调试javascript的工具
2009/04/29 Javascript
JS完成代码前最好对其做5件事
2013/04/07 Javascript
浏览器打开层自动缓慢展开收缩实例代码
2013/07/04 Javascript
javascript实现简单加载随机色方块
2015/12/25 Javascript
ES6的新特性概览
2016/03/10 Javascript
AngularJs基本特性解析(一)
2016/07/21 Javascript
利用原生js和jQuery实现单选框的勾选和取消操作的方法
2016/09/04 Javascript
作为老司机使用 React 总结的 11 个经验教训
2017/04/08 Javascript
jQuery Ajax自定义分页组件(jquery.loehpagerv1.0)实例详解
2017/05/01 jQuery
BootStrap点击保存后实现模态框自动关闭的思路(模态框)
2017/09/26 Javascript
vue结合Echarts实现点击高亮效果的示例
2018/03/17 Javascript
使用react render props实现倒计时的示例代码
2018/12/06 Javascript
微信小程序环境下将文件上传到OSS的方法步骤
2019/05/31 Javascript
vue项目中全局引入1个.scss文件的问题解决
2019/08/01 Javascript
layui上传图片到服务器的非项目目录下的方法
2019/09/26 Javascript
基于vue+element实现全局loading过程详解
2020/07/10 Javascript
[01:46]TI4西雅图DOTA2前线报道 中国选手抱团调时差
2014/07/08 DOTA
Python入门篇之条件、循环
2014/10/17 Python
python实现从字典中删除元素的方法
2015/05/04 Python
Python切片知识解析
2016/03/06 Python
python 将视频 通过视频帧转换成时间实例
2020/04/23 Python
pycharm 实现本地写代码,服务器运行的操作
2020/06/08 Python
Python字符串split及rsplit方法原理详解
2020/06/29 Python
快速了解Python开发环境Spyder
2020/06/29 Python
如何使用Pytorch搭建模型
2020/10/26 Python
Lookfantastic葡萄牙官方网站:欧洲第一大化妆品零售商
2018/03/17 全球购物
Sarenza德国:法国最大的时尚鞋和包包网上商店
2019/06/08 全球购物
澳大利亚买卖正宗二手奢侈品交易平台:Luxe.It.Fwd
2019/10/16 全球购物
人事助理岗位职责
2013/11/18 职场文书
机电一体化求职信
2014/03/10 职场文书