编程 Python

Python文本特征抽取与向量化算法学习

Posted in Python onDecember 22, 2017

本文为大家分享了Python文本特征抽取与向量化的具体代码，供大家参考，具体内容如下

假设我们刚看完诺兰的大片《星际穿越》，设想如何让机器来自动分析各位观众对电影的评价到底是“赞”（positive）还是“踩”（negative）呢？

这类问题就属于情感分析问题。这类问题处理的第一步，就是将文本转换为特征。

因此，这章我们只学习第一步，如何从文本中抽取特征，并将其向量化。

由于中文的处理涉及到分词问题，本文用一个简单的例子来说明如何使用Python的机器学习库，对英文进行特征提取。

1、数据准备

Python的sklearn.datasets支持从目录读取所有分类好的文本。不过目录必须按照一个文件夹一个标签名的规则放好。比如本文使用的数据集共有2个标签，一个为“net”，一个为“pos”，每个目录下面有6个文本文件。目录如下所示：

neg
    1.txt
    2.txt
    ......
pos
    1.txt
    2.txt
    ....

12个文件的内容汇总起来如下所示：

neg: 
  shit. 
  waste my money. 
  waste of money. 
  sb movie. 
  waste of time. 
  a shit movie. 
pos: 
  nb! nb movie! 
  nb! 
  worth my money. 
  I love this movie! 
  a nb movie. 
  worth it!

2、文本特征

如何从这些英文中抽取情感态度而进行分类呢？

最直观的做法就是抽取单词。通常认为，很多关键词能够反映说话者的态度。比如上面这个简单的数据集，很容易发现，凡是说了“shit”的，就一定属于neg类。

当然，上面数据集是为了方便描述而简单设计的。现实中一个词经常会有穆棱两可的态度。但是仍然有理由相信，某个单词在neg类中出现的越多，那么他表示neg态度的概率越大。
同样我们注意到有些单词对情感分类是毫无意义的。比如上述数据中的“of”，“I”之类的单词。这类词有个名字，叫“Stop_Word”（停用词）。这类词是可以完全忽略掉不做统计的。显然忽略掉这些词，词频记录的存储空间能够得到优化，而且构建速度也更快。
把每个单词的词频作为重要的特征也存在一个问题。比如上述数据中的”movie“，在12个样本中出现了5次，但是出现正反两边次数差不多，没有什么区分度。而”worth“出现了2次，但却只出现在pos类中，显然更具有强烈的刚晴色彩，即区分度很高。

因此，我们需要引入TF-IDF（Term Frequency-Inverse Document Frequency，词频和逆向文件频率）对每个单词做进一步考量。

TF（词频）的计算很简单，就是针对一个文件t，某个单词Nt 出现在该文档中的频率。比如文档“I love this movie”，单词“love”的TF为1/4。如果去掉停用词“I"和”it“，则为1/2。

IDF（逆向文件频率）的意义是，对于某个单词t，凡是出现了该单词的文档数Dt，占了全部测试文档D的比例，再求自然对数。
比如单词“movie“一共出现了5次，而文档总数为12，因此IDF为ln(5/12)。
很显然，IDF是为了凸显那种出现的少，但是占有强烈感情色彩的词语。比如“movie”这样的词的IDF=ln(12/5)=0.88，远小于“love”的IDF=ln(12/1)=2.48。

TF-IDF就是把二者简单的乘在一起即可。这样，求出每个文档中，每个单词的TF-IDF，就是我们提取得到的文本特征值。

3、向量化

有了上述基础，就能够将文档向量化了。我们先看代码，再来分析向量化的意义：

# -*- coding: utf-8 -*- 
import scipy as sp 
import numpy as np 
from sklearn.datasets import load_files 
from sklearn.cross_validation import train_test_split 
from sklearn.feature_extraction.text import TfidfVectorizer 
 
'''''加载数据集，切分数据集80%训练，20%测试''' 
movie_reviews = load_files('endata')  
doc_terms_train, doc_terms_test, y_train, y_test\ 
  = train_test_split(movie_reviews.data, movie_reviews.target, test_size = 0.3) 
   
'''''BOOL型特征下的向量空间模型，注意，测试样本调用的是transform接口''' 
count_vec = TfidfVectorizer(binary = False, decode_error = 'ignore',\ 
              stop_words = 'english') 
x_train = count_vec.fit_transform(doc_terms_train) 
x_test = count_vec.transform(doc_terms_test) 
x    = count_vec.transform(movie_reviews.data) 
y    = movie_reviews.target 
print(doc_terms_train) 
print(count_vec.get_feature_names()) 
print(x_train.toarray()) 
print(movie_reviews.target)

运行结果如下：
[b'waste of time.', b'a shit movie.', b'a nb movie.', b'I love this movie!', b'shit.', b'worth my money.', b'sb movie.', b'worth it!']
['love', 'money', 'movie', 'nb', 'sb', 'shit', 'time', 'waste', 'worth']
[[ 0.          0.          0.          0.          0.          0.   0.70710678 0.70710678 0.        ]
[ 0.          0.          0.60335753 0.          0.          0.79747081   0.          0.          0.        ]
[ 0.          0.          0.53550237 0.84453372 0.          0.          0.   0.          0.        ]
[ 0.84453372 0.          0.53550237 0.          0.          0.          0.   0.          0.        ]
[ 0.          0.          0.          0.          0.          1.          0.   0.          0.        ]
[ 0.          0.76642984 0.          0.          0.          0.          0.   0.          0.64232803]
[ 0.          0.          0.53550237 0.          0.84453372 0.          0.   0.          0.        ]
[ 0.          0.          0.          0.          0.          0.          0.   0.          1.        ]]
[1 1 0 1 0 1 0 1 1 0 0 0]

python输出的比较混乱。我这里做了一个表格如下：

Python文本特征抽取与向量化算法学习

从上表可以发现如下几点：

1、停用词的过滤。

初始化count_vec的时候，我们在count_vec构造时传递了stop_words = 'english'，表示使用默认的英文停用词。可以使用count_vec.get_stop_words()查看TfidfVectorizer内置的所有停用词。当然，在这里可以传递你自己的停用词list（比如这里的“movie”）

2、TF-IDF的计算。

这里词频的计算使用的是sklearn的TfidfVectorizer。这个类继承于CountVectorizer，在后者基本的词频统计基础上增加了如TF-IDF之类的功能。
我们会发现这里计算的结果跟我们之前计算不太一样。因为这里count_vec构造时默认传递了max_df=1，因此TF-IDF都做了规格化处理，以便将所有值约束在[0,1]之间。

3、count_vec.fit_transform的结果是一个巨大的矩阵。我们可以看到上表中有大量的0，因此sklearn在内部实现上使用了稀疏矩阵。本例子数据较小。如果读者有兴趣，可以试试机器学习科研工作者使用的真实数据，来自康奈尔大学：http://www.cs.cornell.edu/people/pabo/movie-review-data/。这个网站提供了很多数据集，其中有几个2M左右的数据库，正反例700个左右。这样的数据规模也不算大，1分钟内还是可以跑完的，建议大家试一试。不过要注意这些数据集可能存在非法字符问题。所以在构造count_vec时，传入了decode_error = 'ignore'，以忽略这些非法字符。

上表的结果，就是训练8个样本的8个特征的一个结果。这个结果就可以使用各种分类算法进行分类了。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python文本特征抽取与向量化算法学习

- Author -

lsldd

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

linux环境下安装pyramid和新建项目的步骤

Nov 27 Python

Windows下用py2exe将Python程序打包成exe程序的教程

Apr 08 Python

Python计算两个日期相差天数的方法示例

May 23 Python

Python 编码Basic Auth使用方法简单实例

May 25 Python

Diango + uwsgi + nginx项目部署的全过程（可外网访问）

Apr 22 Python

对python中矩阵相加函数sum()的使用详解

Jan 28 Python

Python叠加两幅栅格图像的实现方法

Jul 05 Python

Python中的引用和拷贝实例解析

Nov 14 Python

Python numpy数组转置与轴变换

Nov 15 Python

Python 动态变量名定义与调用方法

Feb 09 Python

keras 权重保存和权重载入方式

May 21 Python

python使用dlib进行人脸检测和关键点的示例

Dec 05 Python

用Python实现KNN分类算法

Dec 22 #Python

Python数据拟合与广义线性回归算法学习

Dec 22 #Python

python 动态加载的实现方法

Dec 22 #Python

Python决策树分类算法学习

Dec 22 #Python

Python之Scrapy爬虫框架安装及简单使用详解

Dec 22 #Python

Python2.7下安装Scrapy框架步骤教程

Dec 22 #Python

Python机器学习之决策树算法

Dec 22 #Python

You might like

php禁用函数设置及查看方法详解

2016/07/25 PHP

详谈php静态方法及普通方法的区别

2016/10/04 PHP

IE FF OPERA都可用的弹出层实现代码

2009/09/29 Javascript

js中定义一个变量并判断其是否为空的方法

2014/05/13 Javascript

鼠标悬浮停留三秒后自动显示大图js代码

2014/09/09 Javascript

原生js实现类似弹窗抖动效果

2015/04/02 Javascript

Atitit.js的键盘按键事件捆绑and事件调度

2016/04/01 Javascript

Node.js的文件权限及读写flag详解

2016/10/11 Javascript

javascript中setAttribute兼容性用法分析

2016/12/12 Javascript

js手机号批量滚动抽奖实现代码

2020/04/17 Javascript

vue构建单页面应用实战

2017/04/10 Javascript

微信小程序之分享页面如何返回首页的示例

2018/03/28 Javascript

浅谈redux, koa, express 中间件实现对比解析

2019/05/23 Javascript

原生js实现抽奖小游戏

2019/06/27 Javascript

解决React在安装antd之后出现的Can't resolve './locale'问题(推荐)

2020/05/03 Javascript

Layui弹框中数据表格中可双击选择一条数据的实现

2020/05/06 Javascript

pymongo实现多结果进行多列排序的方法

2015/05/16 Python

详解python发送各类邮件的主要方法

2016/12/22 Python

Python获取CPU、内存使用率以及网络使用状态代码

2018/02/08 Python

python psutil库安装教程

2018/03/19 Python

pycharm远程开发项目的实现步骤

2019/01/20 Python

python使用正则筛选信用卡

2019/01/27 Python

DataFrame:通过SparkSql将scala类转为DataFrame的方法

2019/01/29 Python

python实现一个点绕另一个点旋转后的坐标

2019/12/04 Python

Python通过VGG16模型实现图像风格转换操作详解

2020/01/16 Python

python 实现读取csv数据,分类求和再写进 csv

2020/05/18 Python

python中doctest库实例用法

2020/12/31 Python

css3 盒模型以及box-sizing属性全面了解

2016/09/20 HTML / CSS

纽约著名的服装辅料来源：M&J Trimming

2017/07/26 全球购物

Annoushka英国官网：英国奢侈珠宝品牌

2018/10/20 全球购物

Nisbets法国：英国最大的厨房和餐饮设备供应商

2019/03/18 全球购物

C面试题

2015/10/08 面试题

幼师求职自荐信

2014/05/31 职场文书

2015年宣传部工作总结范文

2015/03/31 职场文书

惹女朋友生气检讨书

2015/05/06 职场文书

解析探秘fescar分布式事务实现原理

2022/02/28 Java/Android