python缺失值的解决方法总结


Posted in Python onJune 09, 2021

1、解决方法

(1)忽视元组。

缺少类别标签时,通常这样做(假设挖掘任务与分类有关),除非元组有多个属性缺失值,否则该方法不太有效。当个属性缺值的百分比变化很大时,其性能特别差。

(2)人工填写缺失值。

一般来说,这种方法需要很长时间,当数据集大且缺少很多值时,这种方法可能无法实现。

(3)使用全局常量填充缺失值。

将缺失的属性值用同一常数(如Unknown或负无限)替换。如果缺失值都是用unknown替换的话,挖掘程序可能会认为形成有趣的概念。因为有同样的价值unknown。因此,这种方法很简单,但不可靠。

(4)使用与给定元组相同类型的所有样本的属性平均值。

(5)使用最可能的值填充缺失值。

可以通过回归、使用贝叶斯形式化的基于推理的工具和决策树的总结来决定。

2、实例

import numpy as np
 
from sklearn.preprocessing import Imputer
 
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
 
import numpy as np
from sklearn.preprocessing import Imputer
 
###1.使用均值填充缺失值
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
 
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))  
[[4.         2.        ]
 [6.         3.66666667]
 [7.         6.        ]]

知识点扩充:

缺失值的处理方法

由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit - learn算法兼容,因为大多数的学习算法都会默认数组中的元素都是数值,因此素偶有的元素都有自己的代表意义。

使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值,但是这样处理会浪费大量有价值的数据。下面是处理缺失值的常用方法:

1.忽略元组

当缺少类别标签时通常这样做(假定挖掘任务涉及分类时),除非元组有多个属性缺失值,否则该方法不是很有效。当每个属性缺少值的百分比变化很大时,它的性能特别差。

2.人工填写缺失值

一般该方法很费时,并且当数据集很大,缺少很多值时,该方法可能行不通。

3.使用一个全局常量填充缺失值

将缺失的属性值用同一个常数(如“Unknown”或 负无穷)替换。如果缺失值都用“unknown”替换,则挖掘程序可能会认为它们形成一个有趣的概念,因为它们都具有相同的值“unknown”。因此,虽然该方法很简单,但是它十分不可靠。

4.使用与给定元组属同一类的所有样本的属性均值

例如:将顾客按照credit_risk分类,则使用具有相同信用度的给定元组的顾客的平均收入替换income中的缺失值。

Python客栈送红包、纸质书

5.使用最可能的值填充缺失值

可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。例如,利用数据集中其他顾客的属性,可以构造一颗决策树来预测income的缺失值。

到此这篇关于python缺失值的解决方法总结的文章就介绍到这了,更多相关如何解决python缺失值内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Linux下编译安装MySQL-Python教程
Feb 02 Python
介绍Python中的文档测试模块
Apr 28 Python
Python自动生产表情包
Mar 17 Python
Scrapy抓取京东商品、豆瓣电影及代码分享
Nov 23 Python
python3.5 tkinter实现页面跳转
Jan 30 Python
怎么使用pipenv管理你的python项目
Mar 12 Python
好的Python培训机构应该具备哪些条件
May 23 Python
Python实现网站表单提交和模板
Jan 15 Python
opencv与numpy的图像基本操作
Mar 08 Python
Python3中列表list合并的四种方法
Apr 19 Python
Python数据类型之List列表实例详解
May 08 Python
Python使用Pandas库实现MySQL数据库的读写
Jul 06 Python
Python提取PDF指定内容并生成新文件
Python激活Anaconda环境变量的详细步骤
Jun 08 #Python
Python序列化与反序列化相关知识总结
Jun 08 #Python
浅谈怎么给Python添加类型标注
Python如何导出导入所有依赖包详解
Jun 08 #Python
OpenCV-Python实现油画效果的实例
OpenCV-Python实现图像平滑处理操作
You might like
PHP编程过程中需要了解的this,self,parent的区别
2009/12/30 PHP
php cookie工作原理与实例详解
2016/07/18 PHP
在 IE 中调用 javascript 打开 Excel 表
2006/12/21 Javascript
jquery CSS选择器笔记
2010/03/29 Javascript
jQuery代码优化之基本事件
2011/11/01 Javascript
js jquery数组介绍
2012/07/15 Javascript
解析javascript 数组以及json元素的添加删除
2013/06/26 Javascript
js获取select默认选中的Option并不是当前选中值
2014/05/07 Javascript
JavaScript实现跨浏览器的添加及删除事件绑定函数实例
2015/08/04 Javascript
详解js中class的多种函数封装方法
2016/01/03 Javascript
vue快捷键与基础指令详解
2017/06/01 Javascript
Vue组件选项props实例详解
2017/08/18 Javascript
微信小程序显示下拉列表功能【附源码下载】
2017/12/12 Javascript
微信小程序实现简单跑马灯效果
2020/05/26 Javascript
javascript实现自由编辑图片代码详解
2019/06/21 Javascript
基于layui轮播图满屏是高度自适应的解决方法
2019/09/16 Javascript
layui自定义工具栏的方法
2019/09/19 Javascript
JQuery常用简单动画操作方法回顾与总结
2019/12/07 jQuery
Python对文件操作知识汇总
2016/05/15 Python
Python实现获取nginx服务器ip及流量统计信息功能示例
2018/05/18 Python
Python数学形态学实例分析
2019/09/06 Python
Django权限设置及验证方式
2020/05/13 Python
解决python pandas读取excel中多个不同sheet表格存在的问题
2020/07/14 Python
Python pexpect模块及shell脚本except原理解析
2020/08/03 Python
CSS3 绘制BMW logo实的现代码
2013/04/25 HTML / CSS
如何使用css3实现一个类在线直播的队列动画的示例代码
2020/06/17 HTML / CSS
DAWGS鞋官方网站:鞋,凉鞋,靴子
2016/10/04 全球购物
Smashbox官网:美国知名彩妆品牌
2017/01/05 全球购物
Sperry澳大利亚官网:源自美国帆船鞋创始品牌
2019/07/29 全球购物
门卫班长岗位职责
2013/12/15 职场文书
优秀共产党员先进事迹
2014/01/27 职场文书
田径运动会开幕式及主持词
2014/03/28 职场文书
水电站项目建议书
2014/05/12 职场文书
2014年数学教研组工作总结
2014/12/06 职场文书
python自动化操作之动态验证码、滑动验证码的降噪和识别
2021/08/30 Python
java多态注意项小结
2021/10/16 Java/Android