python数据预处理 :数据共线性处理详解


Posted in Python onFebruary 24, 2020

何为共线性:

共线性问题指的是输入的自变量之间存在较高的线性相关度。共线性问题会导致回归模型的稳定性和准确性大大降低,另外,过多无关的维度计算也很浪费时间

共线性产生原因:

变量出现共线性的原因:

数据样本不够,导致共线性存在偶然性,这其实反映了缺少数据对于数据建模的影响,共线性仅仅是影响的一部分

多个变量都给予时间有共同或相反的演变趋势,例如春节期间的网络销售量和销售额都相对与正常时间有下降趋势。

多个变量存在一定的推移关系,但总体上变量间的趋势一致,只是发生的时间点不一致,例如广告费用和销售额之间,通常是品牌广告先进行大范围的曝光和信息推送,经过一定时间传播之后,才会在销售额上做出反映。

多变量之间存在线性的关系。例如y代表访客数,用x代表展示广告费用,那么二者的关系很可能是y=2*x + b

如何检验共线性:

检验共线性:

容忍度(Tolerance):容忍度是每个自变量作为因变量对其他自变量进行回归建模时得到的残差比例,大小用1减得到的决定系数来表示。容忍度值越小说明这个自变量与其他自变量间越可能存在共线性问题。

方差膨胀因子 VIF是容忍度的倒数,值越大则共线性问题越明显,通常以10作为判断边界。当VIF<10,不存在多重共线性;当10<=VIF<100,存在较强的多重共线性;当VIF>=100, 存在严重多重共线性。

特征值(Eigenvalue):该方法实际上就是对自变量做主成分分析,如果多个维度的特征值等于0,则可能有比较严重的共线性。

相关系数:如果相关系数R>0.8时就可能存在较强相关性

如何处理共线性:

处理共线性:

增大样本量:增大样本量可以消除犹豫数据量不足而出现的偶然的共线性现象,在可行的前提下这种方法是需要优先考虑的

岭回归法(Ridge Regression):实际上是一种改良最小二乘估计法。通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价来获得更实际和可靠性更强的回归系数。因此岭回归在存在较强共线性的回归应用中较为常用。

逐步回归法(Stepwise Regression):每次引入一个自变量进行统计检验,然后逐步引入其他变量,同时对所有变量的回归系数进行检验,如果原来引入的变量由于后面变量的引入而变得不再显著,那么久将其剔除,逐步得到最有回归方程。

主成分回归(Principal Components Regression):通过主成分分析,将原始参与建模的变量转换为少数几个主成分,么个主成分是原变量的线性组合,然后基于主成分做回归分析,这样也可以在不丢失重要数据特征的前提下避开共线性问题。

人工去除:结合人工经验,对自变量进行删减,但是对操作者的业务能力、经验有很高的要求。

部分方法python代码实现

import numpy as np
import pandas as pd
from sklearn.linear_model import Ridge
from sklearn.decomposition import PCA
from sklearn.linear_model import LinearRegression

# 导入数据
df = pd.read_csv('https://raw.githubusercontent.com/ffzs/dataset/master/boston/train.csv')

# 切分自变量
X = df.iloc[:, 1:-1].values

# 切分预测变量
y = df.iloc[:, [-1]].values

# 使用岭回归处理
import matplotlib.pyplot as plt
plt.figure(figsize=(8,6))
n_alphas = 20
alphas = np.logspace(-1,4,num=n_alphas)
coefs = []
for a in alphas:
  ridge = Ridge(alpha=a, fit_intercept=False)
  ridge.fit(X, y)
  coefs.append(ridge.coef_[0])
ax = plt.gca()
ax.plot(alphas, coefs)
ax.set_xscale('log')
handles, labels = ax.get_legend_handles_labels()
plt.legend(labels=df.columns[1:-1])
plt.xlabel('alpha')
plt.ylabel('weights')
plt.axis('tight')
plt.show()

python数据预处理 :数据共线性处理详解

只有nox有些许波动。

# 主成分回归进行回归分析
pca_model = PCA()
data_pca = pca_model.fit_transform(X)

# 得到所有主成分方差
ratio_cumsum = np.cumsum(pca_model.explained_variance_ratio_)
# 获取方差占比超过0.8的索引值
rule_index = np.where(ratio_cumsum > 0.9)
# 获取最小的索引值
min_index = rule_index[0][0]
# 根据最小索引值提取主成分
data_pca_result = data_pca[:, :min_index+1]
# 建立回归模型
model_liner = LinearRegression()
# 训练模型
model_liner.fit(data_pca_result, y)
print(model_liner.coef_)
#[[-0.02430516 -0.01404814]]

以上这篇python数据预处理 :数据共线性处理详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
wxPython事件驱动实例详解
Sep 28 Python
如何在Python中编写并发程序
Feb 27 Python
Python的消息队列包SnakeMQ使用初探
Jun 29 Python
Python使用cookielib模块操作cookie的实例教程
Jul 12 Python
Python利用递归和walk()遍历目录文件的方法示例
Jul 14 Python
python整小时 整天时间戳获取算法示例
Feb 20 Python
对python中基于tcp协议的通信(数据传输)实例讲解
Jul 22 Python
Django如何简单快速实现PUT、DELETE方法
Jul 24 Python
python实现各种插值法(数值分析)
Jul 30 Python
pycharm内无法import已安装的模块问题解决
Feb 12 Python
Django实现从数据库中获取到的数据转换为dict
Mar 27 Python
在python3.9下如何安装scrapy的方法
Feb 03 Python
使用python实现多维数据降维操作
Feb 24 #Python
python数据预处理 :数据抽样解析
Feb 24 #Python
Python找出列表中出现次数最多的元素三种方式
Feb 24 #Python
Python流程控制常用工具详解
Feb 24 #Python
深入浅析Python 函数注解与匿名函数
Feb 24 #Python
python数据预处理方式 :数据降维
Feb 24 #Python
python实现PCA降维的示例详解
Feb 24 #Python
You might like
PHP PDOStatement对象bindpram()、bindvalue()和bindcolumn之间的区别
2014/11/20 PHP
轻轻松松学习JavaScript
2007/02/25 Javascript
使用 JScript 创建 .exe 或 .dll 文件的方法
2011/07/13 Javascript
JavaScript中遍历对象的property的3种方法介绍
2014/12/30 Javascript
AngularJS入门教程之AngularJS模型
2016/04/18 Javascript
javascript匀速动画和缓冲动画详解
2016/10/20 Javascript
简单谈谈ES6的六个小特性
2016/11/18 Javascript
JQuery异步提交表单与文件上传功能示例
2017/01/12 Javascript
node.js+captchapng+jsonwebtoken实现登录验证示例
2017/08/17 Javascript
如何重置vue打印变量的显示方式
2017/12/06 Javascript
JavaScript中import用法总结
2019/01/20 Javascript
详解element-ui中el-select的默认选择项问题
2019/08/02 Javascript
js实现九宫格抽奖
2020/03/19 Javascript
Vuejs通过拖动改变元素宽度实现自适应
2020/09/02 Javascript
JavaScript this关键字的深入详解
2021/01/14 Javascript
编写Python脚本来获取Google搜索结果的示例
2015/05/04 Python
Python获取指定文件夹下的文件名的方法
2018/02/06 Python
Python实现全排列的打印
2018/08/18 Python
python 搭建简单的http server,可直接post文件的实例
2019/01/03 Python
python+opencv 读取文件夹下的所有图像并批量保存ROI的方法
2019/01/10 Python
Tensorflow实现神经网络拟合线性回归
2019/07/19 Python
Pytorch.nn.conv2d 过程验证方式(单,多通道卷积过程)
2020/01/03 Python
pytorch torch.nn.AdaptiveAvgPool2d()自适应平均池化函数详解
2020/01/03 Python
Window版下在Jupyter中编写TensorFlow的环境搭建
2020/04/10 Python
django admin 根据choice字段选择的不同来显示不同的页面方式
2020/05/13 Python
Keras Convolution1D与Convolution2D区别说明
2020/05/22 Python
浅谈pytorch中torch.max和F.softmax函数的维度解释
2020/06/28 Python
python+requests实现接口测试的完整步骤
2020/10/27 Python
HTML5 本地存储和内容按需加载的思路和方法
2011/04/07 HTML / CSS
Ratchet 模态框的实现
2020/08/19 HTML / CSS
基督教卡片、励志礼品、家居装饰等:DaySpring
2018/10/12 全球购物
女士鞋子、包包和服装在线,第一款10美元:ShoeDazzle
2019/07/26 全球购物
建筑安全标语
2014/06/07 职场文书
导游词之上海杜莎夫人蜡像馆
2019/11/22 职场文书
总结一些Java常用的加密算法
2021/06/11 Java/Android
TypeScript 使用 Tuple Union 声明函数重载
2022/04/07 Javascript