编程 Python

Python机器学习库scikit-learn安装与基本使用教程

Posted in Python onJune 25, 2018

本文实例讲述了Python机器学习库scikit-learn安装与基本使用。分享给大家供大家参考，具体如下：

引言

scikit-learn是Python的一个开源机器学习模块，它建立在NumPy，SciPy和matplotlib模块之上能够为用户提供各种机器学习算法接口，可以让用户简单、高效地进行数据挖掘和数据分析。

scikit-learn安装

python 中安装许多模板库之前都有依赖关系,安装 scikit-learn 之前需要以下先决条件:

Python(>= 2.6 or >= 3.3)
NumPy (>= 1.6.1)
SciPy (>= 0.9)

如无意外,下面用 pip 的安装方法可以顺利完成~~

安装 numpy

sudo pip install numpy

安装 scipy

需要先安装 matplotlib ipython ipython-notebook pandas sympy

sudo apt-get install python-matplotlib ipython ipython-notebook
sudo apt-get install python-pandas python-sympy python-nose
sudo pip install scipy

安装 scikit-learn

sudo pip install -U scikit-learn

测试

在 terminal 里面输入

pip list

这个会列出 pip 安装的所有东西,如果里面有 sklearn 这一项,应该就是大功告成了!

或者尝试着将几个模板库导入进来

import numpy
import scipy
import sklearn

加载数据(Data Loading)

本文所使用的数据集为‘今日头条'近期两篇热门新闻“牛！川大学霸寝室5人获16份名校通知书”、“张超凡的最后14天：山西15岁休学少年是如何殒命网吧的”分别500条评论，共1000条评论。

去除停用词后得到了词库大小为3992的词库。因此构建了1000×3992的特征矩阵，以及长度为1000的对应评论所属类别列表

import numpy as np
feature_matrix = np.load('dataSet/feature_matrix_save.npy')
class_list = np.load('dataSet/class_result_save.npy')

数据归一化(Data Normalization)

大多数机器学习算法中的梯度方法对于数据的缩放和尺度都是很敏感的，在开始跑算法之前，我们应该进行归一化或者标准化的过程，这使得特征数据缩放到0-1范围中。scikit-learn提供了归一化的方法：

from sklearn import preprocessing
# 归一化（Normalization）
normalized_X = preprocessing.normalize(feature_matrix)
print normalized_X
# 标准化（Standardization）
standardized_X = preprocessing.scale(feature_matrix)
print standardized_X

特征选择(Feature Selection)

在解决一个实际问题的过程中，选择合适的特征或者构建特征的能力特别重要。这成为特征选择或者特征工程。

特征选择时一个很需要创造力的过程，更多的依赖于直觉和专业知识，并且有很多现成的算法来进行特征的选择。

下面的树算法(Tree algorithms)计算特征的信息量：

from sklearn.ensemble import ExtraTreesClassifier
model = ExtraTreesClassifier()
print feature_matrix.shape # 原特征矩阵规模
feature_matrix = model.fit(feature_matrix, class_list).transform(feature_matrix)
print feature_matrix.shape # 特征选择后 特征矩阵的规模

特征提取(Feature Extraction)

用TFIDF算法来计算特征词的权重值是表示当一个词在这篇文档中出现的频率越高，同时在其他文档中出现的次数越少，则表明该词对于表示这篇文档的区分能力越强，所以其权重值就应该越大。

from sklearn.feature_extraction.text import TfidfTransformer
tfidf_transformer = TfidfTransformer()
feature_matrix = tfidf_transformer.fit_transform(feature_matrix).toarray()

朴素贝叶斯(Naive Bayes)

朴素贝叶斯是一个很著名的机器学习算法，主要是根据训练样本的特征来计算各个类别的概率，在多分类问题上用的比较多。

from sklearn import metrics
from sklearn.naive_bayes import GaussianNB
# 构建朴素贝叶斯模型
model = GaussianNB()
model.fit(feature_matrix, class_list)
print model
# 使用测试集进行测试(此处将训练集做测试集)
expected = class_list
predicted = model.predict(feature_matrix)
# 输出测试效果
print metrics.classification_report(expected, predicted)
print metrics.confusion_matrix(expected, predicted)

k近邻(k-Nearest Neighbours)

k近邻算法常常被用作是分类算法一部分，比如可以用它来评估特征，在特征选择上我们可以用到它。

from sklearn import metrics
from sklearn.neighbors import KNeighborsClassifier
# 构建knn模型
model = KNeighborsClassifier()
model.fit(feature_matrix, class_list)
print model
# 使用测试集进行测试(此处将训练集做测试集)
expected = class_list
predicted = model.predict(feature_matrix)
# 输出测试效果
print metrics.classification_report(expected, predicted)
print metrics.confusion_matrix(expected, predicted)

决策树(Decision Tree)

分类与回归树(Classification and Regression Trees ,CART)算法常用于特征含有类别信息的分类或者回归问题，这种方法非常适用于多分类情况。

from sklearn import metrics
from sklearn.tree import DecisionTreeClassifier
# 构建决策数模型
model = DecisionTreeClassifier()
model.fit(feature_matrix, class_list)
print model
# 使用测试集进行测试(此处将训练集做测试集)
expected = class_list
predicted = model.predict(feature_matrix)
# 输出测试效果
print metrics.classification_report(expected, predicted)
print metrics.confusion_matrix(expected, predicted)

希望本文所述对大家Python程序设计有所帮助。

Python机器学习库scikit-learn安装与基本使用教程

- Author -

Eric Chan

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python通过floor函数舍弃小数位的方法

Mar 17 Python

Python中字典映射类型的学习教程

Aug 20 Python

Python 专题五列表基础知识（二维list排序、获取下标和处理txt文本实例）

Mar 20 Python

python 3.0 模拟用户登录功能并实现三次错误锁定

Nov 01 Python

WxPython建立批量录入框窗口

Feb 27 Python

python itchat给指定联系人发消息的方法

Jun 11 Python

pandas 空数据处理方法详解

Nov 02 Python

python sorted方法和列表使用解析

Nov 18 Python

tensorflow没有output结点,存储成pb文件的例子

Jan 04 Python

python框架flask入门之路由及简单实现方法

Jun 07 Python

Python基础之教你怎么在M1系统上使用pandas

May 08 Python

python 网络编程要点总结

Jun 18 Python

python3实现随机数

Jun 25 #Python

Python实现快速计算词频功能示例

Jun 25 #Python

python实现画一颗树和一片森林

Jun 25 #Python

完美解决在oj中Python的循环输入问题

Jun 25 #Python

django rest framework 数据的查找、过滤、排序的示例

Jun 25 #Python

python使用turtle库绘制树

Jun 25 #Python

使用Python微信库itchat获得好友和群组已撤回的消息

Jun 24 #Python

You might like

PHP三元运算符的结合性介绍

2012/01/10 PHP

php面向对象中static静态属性与方法的内存位置分析

2015/02/08 PHP

两种php给图片加水印的实现代码

2020/04/18 PHP

php使用SAE原生Mail类实现各种类型邮件发送的方法

2016/10/10 PHP

php数据结构之顺序链表与链式线性表示例

2018/01/22 PHP

浅谈javascript 面向对象编程

2009/10/28 Javascript

很棒的学习jQuery的12个网站推荐

2011/04/28 Javascript

AJAX跨域请求json数据的实现方法

2013/11/11 Javascript

javascript放大镜效果的简单实现

2013/12/09 Javascript

javascript 处理null及null值示例

2014/06/09 Javascript

JavaScript日期时间与时间戳的转换函数分享

2015/01/31 Javascript

jQuery实现响应鼠标滚动的动感菜单效果

2015/09/21 Javascript

浅述节点的创建及常见功能的实现

2016/12/15 Javascript

微信小程序中使用javascript 回调函数

2017/05/11 Javascript

基于JS对象创建常用方式及原理分析

2017/06/28 Javascript

浅析vue中常见循环遍历指令的使用 v-for

2018/04/18 Javascript

JavaScript面向对象程序设计创建对象的方法分析

2018/08/13 Javascript

JS如何获取地址栏的参数实例讲解

2018/10/06 Javascript

JavaScript实现随机点名器

2020/03/25 Javascript

vue组件实现移动端九宫格转盘抽奖

2020/10/16 Javascript

解决vue使用vant轮播组件swipe + flex时文字抖动问题

2021/01/07 Vue.js

[07:09]2014DOTA2国际邀请赛-Newbee再次发威成功晋级决赛

2014/07/19 DOTA

用Python展示动态规则法用以解决重叠子问题的示例

2015/04/02 Python

Python安装使用命令行交互模块pexpect的基础教程

2016/05/12 Python

Python中的os.path路径模块中的操作方法总结

2016/07/07 Python

Python之Web框架Django项目搭建全过程

2017/05/02 Python

突袭HTML5之Javascript API扩展5—其他扩展(应用缓存/服务端消息/桌面通知)

2013/01/31 HTML / CSS

详解通过HTML5 Canvas实现图片的平移及旋转变化的方法

2016/03/22 HTML / CSS

英国浴室洗脸盆购物网站：Click Basin

2018/06/08 全球购物

巴西最大的玩具连锁店：Ri Happy

2020/06/17 全球购物

万年牢教学反思

2014/02/15 职场文书

实用的简历自我评价

2014/03/06 职场文书

2014年学校党建工作总结

2014/11/11 职场文书

科级干部培训心得体会

2016/01/06 职场文书

乔迁新居祝福语

2019/11/04 职场文书

关于Mybatis中SQL节点的深入解析

2022/03/19 Java/Android