在Pandas中处理NaN值的方法


Posted in Python onJune 25, 2019

关于NaN值

-在能够使用大型数据集训练学习算法之前,我们通常需要先清理数据, 也就是说,我们需要通过某个方法检测并更正数据中的错误。
- 任何给定数据集可能会出现各种糟糕的数据,例如离群值或不正确的值,但是我们几乎始终会遇到的糟糕数据类型是缺少值。
- Pandas 会为缺少的值分配 NaN 值。

创建一个具有NaN值得 Data Frame

import pandas as pd

# We create a list of Python dictionaries
# 创建一个字典列表
items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45},
{'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'shoes':5, 'suits':7},
{'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4, 'shoes':10}]

# 创建一个DataFrame并设置行索引
store_items = pd.DataFrame(items2, index = ['store 1', 'store 2', 'store 3'])

# 显示
store_items

显示:

在Pandas中处理NaN值的方法

数据量大时统计NaN的个数

# 计算在store_items中NaN值的个数
x = store_items.isnull().sum().sum()

# 输出
print('在我们DataFrame中NaN的数量:', x)

输出:

在我们DataFrame中NaN的数量: 3

.isnull() 方法返回一个大小和 store_items 一样的布尔型 DataFrame,并用 True 表示具有 NaN 值的元素,用 False 表示非 NaN 值的元素。

store_items.isnull()

显示:

在Pandas中处理NaN值的方法

在 Pandas 中,逻辑值 True 的数字值是 1,逻辑值 False 的数字值是 0。

因此,我们可以通过数逻辑值 True 的数量数出 NaN 值的数量。

为了数逻辑值 True 的总数,我们使用 .sum() 方法两次。

要使用该方法两次,是因为第一个 sum() 返回一个 Pandas Series,其中存储了列上的逻辑值 True 的总数

第二个 sum() 将上述 Pandas Series 中的 1 相加

除了数 NaN 值的数量之外,我们还可以采用相反的方式,我们可以数非 NaN 值的数量。为此,我们可以使用 .count() 方法

print('在我们DataFrame的列中具有非NaN值得数量分别为:\n', store_items.count())

输出:

在我们DataFrame的列中具有非NaN值得数量:
bikes 3
glasses 2
pants 3
shirts 2
shoes 3
suits 2
watches 3
dtype: int64

处理这些 NaN 值

  • 如果 axis = 0,.dropna(axis) 方法将删除包含 NaN 值的任何行
  • 如果 axis = 1,.dropna(axis) 方法将删除包含 NaN 值的任何列
# 删除包含NaN值得任何行
store_items.dropna(axis = 0)

显示为:

在Pandas中处理NaN值的方法

store_items.dropna(axis = 1)

显示为:

在Pandas中处理NaN值的方法

注意:

- .dropna() 方法不在原地地删除具有 NaN 值的行或列。
- 原始 DataFrame 不会改变。你始终可以在 dropna() 方法中将关键字 inplace 设为 True,在原地删除目标行或列。

将NaN值替换为合适的值

我们不再删除 NaN 值,而是将它们替换为合适的值。例如,我们可以选择将所有 NaN 值替换为 0。为此,我们可以使用 .fillna() 方法

store_items.fillna(0)

显示:

在Pandas中处理NaN值的方法

我们还可以使用 .fillna() 方法将 NaN 值替换为 DataFrame 中的上个值,称之为前向填充

.fillna(method = 'ffill', axis) 将通过前向填充 (ffill) 方法沿着给定 axis 使用上个已知值替换 NaN 值

store_items.fillna(method = 'ffill', axis = 0)

显示:

在Pandas中处理NaN值的方法

注意 store 3 中的两个 NaN 值被替换成了它们所在列中的上个值。

但是注意, store 1 中的 NaN 值没有被替换掉。因为这列前面没有值,因为 NaN 值是该列的第一个值。

现在,使用上个行值进行前向填充

store_items.fillna(method = 'ffill', axis = 1)

显示:

在Pandas中处理NaN值的方法

在这种情况下:所有 NaN 值都被替换成了之前的行值

同时,也可以选择用 DataFrame 中之后的值替换 NaN 值,称之为后向填充

# 向后填充列,即为NaN的列值,用其列中的后一个来填充
store_items.fillna(method = 'backfill', axis = 0)

同理:也可以向后填充行,即为NaN的行值,用其行中的后一个来填充

# 向后填充行,即为NaN的行值,用其行中的后一个来填充
store_items.fillna(method = 'backfill', axis = 1)

注意:.fillna() 方法不在原地地替换(填充)NaN 值。也就是说,原始 DataFrame 不会改变。你始终可以在 fillna() 函数中将关键字 inplace 设为 True,在原地替换 NaN 值。

还可以选择使用不同的插值方法替换 NaN 值

.interpolate(method = 'linear', axis) 方法将通过 linear 插值使用沿着给定 axis 的值替换 NaN 值, 这个差值也就是前后或者上下的中间值

store_items.interpolate(method = 'linear', axis = 0)

同时,也可用行值插入

store_items.interpolate(method = 'linear', axis = 1)

和我们看到的其他方法一样,.interpolate() 方法不在原地地替换 NaN 值,图片就省略了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python切换pip安装源的方法详解
Nov 18 Python
python实现百万答题自动百度搜索答案
Jan 16 Python
Python 爬取携程所有机票的实例代码
Jun 11 Python
python-opencv 将连续图片写成视频格式的方法
Jan 08 Python
python识别文字(基于tesseract)代码实例
Aug 24 Python
python线程安全及多进程多线程实现方法详解
Sep 27 Python
Python 用三行代码提取PDF表格数据
Oct 13 Python
Python的形参和实参使用方式
Dec 24 Python
Python 读取有公式cell的结果内容实例方法
Feb 17 Python
ipython jupyter notebook中显示图像和数学公式实例
Apr 15 Python
python适合做数据挖掘吗
Jun 16 Python
能让Python提速超40倍的神器Cython详解
Jun 24 Python
python实现websocket的客户端压力测试
Jun 25 #Python
python中metaclass原理与用法详解
Jun 25 #Python
python实现接口并发测试脚本
Jun 25 #Python
Python实现EXCEL表格的排序功能示例
Jun 25 #Python
python实现动态创建类的方法分析
Jun 25 #Python
python pandas写入excel文件的方法示例
Jun 25 #Python
python多线程http压力测试脚本
Jun 25 #Python
You might like
php中使用addslashes函数报错问题的解决方法
2013/02/06 PHP
smarty内置函数section的用法
2015/01/22 PHP
PHP中的魔术方法总结和使用实例
2015/05/11 PHP
php基于jquery的ajax技术传递json数据简单实例
2016/04/15 PHP
php将服务端的文件读出来显示在web页面实例
2016/10/31 PHP
PHP实现QQ、微信和支付宝三合一收款码实例代码
2018/02/19 PHP
PHP fprintf()函数用法讲解
2019/02/16 PHP
javascript编程起步(第一课)
2007/01/10 Javascript
网页自动跳转代码收集
2009/09/27 Javascript
Javascript base64编码实现代码
2011/12/02 Javascript
js创建子窗口并且回传值示例代码
2013/07/02 Javascript
nodeType属性返回被选节点的节点类型介绍
2013/11/22 Javascript
jQuery模拟点击A标记示例参考
2014/04/17 Javascript
Ajax中解析Json的两种方法对比分析
2015/06/25 Javascript
JS操作XML实例总结(加载与解析XML文件、字符串)
2015/12/08 Javascript
理解js回收机制通俗易懂版
2016/02/29 Javascript
JS代码随机生成姓名、手机号、身份证号、银行卡号
2016/04/27 Javascript
jQuery代码实现图片墙自动+手动淡入淡出切换效果
2016/05/09 Javascript
Bootstrap Table使用整理(二)
2017/06/09 Javascript
js链表操作(实例讲解)
2017/08/29 Javascript
基于Bootstrap框架菜鸟入门教程(推荐)
2017/09/17 Javascript
Vue.js计算机属性computed和methods方法详解
2019/10/12 Javascript
python爬虫中get和post方法介绍以及cookie作用
2018/02/08 Python
对pandas进行数据预处理的实例讲解
2018/04/20 Python
Python实现动态给类和对象添加属性和方法操作示例
2020/02/29 Python
Python接口开发实现步骤详解
2020/04/26 Python
python进行OpenCV实战之画图(直线、矩形、圆形)
2020/08/27 Python
利用HTML5的新特点实现图片文件异步上传
2014/05/29 HTML / CSS
科茨沃尔德家居商店:Scotts of Stow
2018/06/29 全球购物
Myprotein西班牙官网:欧洲第一大运动营养品牌
2020/02/24 全球购物
俄罗斯香水和化妆品在线商店:Aroma-butik
2020/02/28 全球购物
Ajax请求总共有多少种Callback
2016/07/17 面试题
大学生会计职业生涯规划范文
2014/02/28 职场文书
英语专业求职信
2014/07/08 职场文书
出售房屋委托书范本
2014/09/24 职场文书
店铺转让协议书
2015/01/29 职场文书