python实现PCA降维的示例详解


Posted in Python onFebruary 24, 2020

概述

本文主要介绍一种降维方法,PCA(Principal Component Analysis,主成分分析)。降维致力于解决三类问题。

1. 降维可以缓解维度灾难问题;

2. 降维可以在压缩数据的同时让信息损失最小化;

3. 理解几百个维度的数据结构很困难,两三个维度的数据通过可视化更容易理解。

PCA简介

在理解特征提取与处理时,涉及高维特征向量的问题往往容易陷入维度灾难。随着数据集维度的增加,算法学习需要的样本数量呈指数级增加。有些应用中,遇到这样的大数据是非常不利的,而且从大数据集中学习需要更多的内存和处理能力。另外,随着维度的增加,数据的稀疏性会越来越高。在高维向量空间中探索同样的数据集比在同样稀疏的数据集中探索更加困难。

主成分分析也称为卡尔胡宁-勒夫变换(Karhunen-Loeve Transform),是一种用于探索高维数据结构的技术。PCA通常用于高维数据集的探索与可视化。还可以用于数据压缩,数据预处理等。PCA可以把可能具有相关性的高维变量合成线性无关的低维变量,称为主成分( principal components)。新的低维数据集会尽可能的保留原始数据的变量。

PCA将数据投射到一个低维子空间实现降维。例如,二维数据集降维就是把点投射成一条线,数据集的每个样本都可以用一个值表示,不需要两个值。三维数据集可以降成二维,就是把变量映射成一个平面。一般情况下,nn维数据集可以通过映射降成kk维子空间,其中k≤nk≤n。

假如你是一本养花工具宣传册的摄影师,你正在拍摄一个水壶。水壶是三维的,但是照片是二维的,为了更全面的把水壶展示给客户,你需要从不同角度拍几张图片。下图是你从四个方向拍的照片:

python实现PCA降维的示例详解

第一张图里水壶的背面可以看到,但是看不到前面。第二张图是拍前面,可以看到壶嘴,这张图可以提供了第一张图缺失的信息,但是壶把看不到了。从第三张俯视图里无法看出壶的高度。第四张图是你真正想要的,水壶的高度,顶部,壶嘴和壶把都清晰可见。

PCA的设计理念与此类似,它可以将高维数据集映射到低维空间的同时,尽可能的保留更多变量。PCA旋转数据集与其主成分对齐,将最多的变量保留到第一主成分中。假设我们有下图所示的数据集:

python实现PCA降维的示例详解

数据集看起来像一个从原点到右上角延伸的细长扁平的椭圆。要降低整个数据集的维度,我们必须把点映射成一条线。下图中的两条线都是数据集可以映射的,映射到哪条线样本变化最大?

python实现PCA降维的示例详解

显然,样本映射到黑色虚线的变化比映射到红色点线的变化要大的多。实际上,这条黑色虚线就是第一主成分。第二主成分必须与第一主成分正交,也就是说第二主成分必须是在统计学上独立的,会出现在与第一主成分垂直的方向,如下图所示:

python实现PCA降维的示例详解

后面的每个主成分也会尽量多的保留剩下的变量,唯一的要求就是每一个主成分需要和前面的主成分正交。

现在假设数据集是三维的,散点图看起来像是沿着一个轴旋转的圆盘。

python实现PCA降维的示例详解

这些点可以通过旋转和变换使圆盘完全变成二维的。现在这些点看着像一个椭圆,第三维上基本没有变量,可以被忽略。

当数据集不同维度上的方差分布不均匀的时候,PCA最有用。(如果是一个球壳形数据集,PCA不能有效的发挥作用,因为各个方向上的方差都相等;没有丢失大量的信息维度一个都不能忽略)。

python实现PCA降维代码

# coding=utf-8
from sklearn.decomposition import PCA 
from pandas.core.frame import DataFrame
import pandas as pd 
import numpy as np 
l=[]
with open('test.csv','r') as fd:
 
  line= fd.readline()
  while line:
    if line =="":
      continue
 
    line = line.strip()
    word = line.split(",")
    l.append(word)
    line= fd.readline()
 
data_l=DataFrame(l)
print (data_l)
dataMat = np.array(data_l) 
 
 
pca_sk = PCA(n_components=2) 
newMat = pca_sk.fit_transform(dataMat) 
 
 
data1 = DataFrame(newMat)
data1.to_csv('test_PCA.csv',index=False,header=False)

以上这篇python实现PCA降维的示例详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python计算最小优先级队列代码分享
Dec 18 Python
Python配置mysql的教程(推荐)
Oct 13 Python
python实现决策树
Dec 21 Python
TensorFlow变量管理详解
Mar 10 Python
python 自动去除空行的实例
Jul 24 Python
删除DataFrame中值全为NaN或者包含有NaN的列或行方法
Nov 06 Python
利用django+wechat-python-sdk 创建微信服务器接入的方法
Feb 20 Python
Python音频操作工具PyAudio上手教程详解
Jun 26 Python
python处理自动化任务之同时批量修改word里面的内容的方法
Aug 23 Python
Python全局锁中如何合理运用多线程(多进程)
Nov 06 Python
Pytorch Tensor基本数学运算详解
Dec 30 Python
使用pyhon绘图比较两个手机屏幕大小(实例代码)
Jan 03 Python
Python sklearn库实现PCA教程(以鸢尾花分类为例)
Feb 24 #Python
python 线性回归分析模型检验标准--拟合优度详解
Feb 24 #Python
最小二乘法及其python实现详解
Feb 24 #Python
在Python 的线程中运行协程的方法
Feb 24 #Python
Python 爬取必应壁纸的实例讲解
Feb 24 #Python
Python unittest工作原理和使用过程解析
Feb 24 #Python
Python 剪绳子的多种思路实现(动态规划和贪心)
Feb 24 #Python
You might like
新手配置 PHP 调试环境(IIS+PHP+MYSQL)
2007/01/10 PHP
PHP遍历XML文档所有节点的方法
2015/03/12 PHP
php文件操作小结(删除指定文件/获取文件夹下的文件名/读取文件夹下图片名)
2016/05/09 PHP
thinkphp5.1框架中容器(Container)和门面(Facade)的实现方法分析
2019/08/05 PHP
Thinkphp集成抖音SDK的实现方法
2020/04/28 PHP
JS构建页面的DOM节点结构的实现代码
2011/12/09 Javascript
解析Jquery取得iframe中元素的几种方法
2013/07/04 Javascript
使用insertAfter()方法在现有元素后添加一个新元素
2014/05/28 Javascript
js的[defer]和[async]属性
2014/11/24 Javascript
javascript的switch用法注意事项分析
2015/02/02 Javascript
Node.js 数据加密传输浅析
2016/11/16 Javascript
node.js入门教程之querystring模块的使用方法
2017/02/27 Javascript
Angular.js指令学习中一些重要属性的用法教程
2017/05/24 Javascript
vue2.0+ 从插件开发到npm发布的示例代码
2018/04/28 Javascript
JavaScript内置对象math,global功能与用法实例分析
2019/06/10 Javascript
Nodejs中使用puppeteer控制浏览器中视频播放功能
2019/08/26 NodeJs
js+canvas实现五子棋小游戏
2020/08/02 Javascript
Vue循环中多个input绑定指定v-model实例
2020/08/31 Javascript
python连接mysql并提交mysql事务示例
2014/03/05 Python
Python编程入门之Hello World的三种实现方式
2015/11/13 Python
django在接受post请求时显示403forbidden实例解析
2018/01/25 Python
Window环境下Scrapy开发环境搭建
2018/11/18 Python
Python 利用邮件系统完成远程控制电脑的实现(关机、重启等)
2019/11/19 Python
详解Python中的format格式化函数的使用方法
2019/11/20 Python
python标准库OS模块详解
2020/03/10 Python
Python word文本自动化操作实现方法解析
2020/11/05 Python
倩碧美国官网:Clinique美国
2016/07/20 全球购物
Philosophy美国官网:美国美容品牌
2016/08/15 全球购物
John Varvatos官方网站:设计师男士时装
2017/02/08 全球购物
美国男士西装打折店:Jos. A. Bank
2017/11/13 全球购物
俄罗斯EPL钻石珠宝店:ЭПЛ
2019/10/22 全球购物
全国税务系统先进集体事迹材料
2014/05/19 职场文书
升学宴演讲稿
2014/09/01 职场文书
党员考试作弊检讨书1000字
2015/02/16 职场文书
小学教师求职信范文
2015/03/20 职场文书
实习单位鉴定意见
2015/06/04 职场文书