pandas数据集的端到端处理


Posted in Python onFebruary 18, 2019

1. 数据集基本信息

df = pd.read_csv()

df.head():前五行;

df.info():

  • rangeindex:行索引;
  • data columns:列索引;
  • dtypes:各个列的类型,
  • 主体部分是各个列值的情况,比如可判断是否存在 NaN 值;

对于非数值型的属性列

  • df[‘some_categorical_columns'].value_counts():取值分布;

df.describe(): 各个列的基本统计信息

  • count
  • mean
  • std
  • min/max
  • 25%, 50%, 75%:分位数

df.hist(bins=50, figsize=(20, 15)):统计直方图;

对 df 的每一列进行展示:

train_prices = pd.DataFrame({'price': train_df.SalePrice, 
    'log(price+1)': np.log1p(train_df.SalePrice)})
 # train_prices 共两列,一列列名为 price,一列列名为 log(price+1)
train_prices.hist()

2. 数据集拆分

def split_train_test(data, test_ratio=.3):
 shuffled_indices = np.random.permutation(len(data))
 test_size = int(len(data)*test_ratio)
 test_indices = shuffled_indices[:test_size]
 train_indices = shuffled_indices[test_size:]
 return data.iloc[train_indices], data.iloc[test_indices]

3. 数据预处理

  • 一键把 categorical 型特征(字符串类型)转化为数值型:
>> df['label'] = pd.Categorical(df['label']).codes
  • 一键把 categorical 型特征(字符串类型)转化为 one-hot 编码:
>> df = pd.get_dummies(df)
  • null 值统计与填充:
>> df.isnull().sum().sort_values(ascending=False).head()
# 填充为 mean 值
>> mean_cols = df.mean()
>> df = df.fillna(mean_cols)
>> df.isnull().sum().sum()
0

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python3读取UTF-8文件及统计文件行数的方法
May 22 Python
深入理解python多进程编程
Jun 12 Python
关于numpy中np.nonzero()函数用法的详解
Feb 07 Python
浅谈flask截获所有访问及before/after_request修饰器
Jan 18 Python
python删除服务器文件代码示例
Feb 09 Python
深入flask之异步非堵塞实现代码示例
Jul 31 Python
Python按钮的响应事件详解
Mar 04 Python
django 自定义filter 判断if var in list的例子
Aug 20 Python
Python代码块及缓存机制原理详解
Dec 13 Python
解决Jupyter NoteBook输出的图表太小看不清问题
Apr 16 Python
Pytorch数据拼接与拆分操作实现图解
Apr 30 Python
Python使用内置函数setattr设置对象的属性值
Oct 16 Python
Python 数据库操作 SQLAlchemy的示例代码
Feb 18 #Python
Python列表常见操作详解(获取,增加,删除,修改,排序等)
Feb 18 #Python
Python File(文件) 方法整理
Feb 18 #Python
Python异常处理知识点总结
Feb 18 #Python
Python os.access()用法实例
Feb 18 #Python
python使用pipeline批量读写redis的方法
Feb 18 #Python
Python变量类型知识点总结
Feb 18 #Python
You might like
php学习笔记 面向对象中[接口]与[多态性]的应用
2011/06/16 PHP
PHP文件缓存类示例分享
2015/01/30 PHP
php无法连接mysql数据库的正确解决方法
2016/07/01 PHP
php strftime函数的详细用法
2018/06/21 PHP
Javascript 构造函数 实例分析
2008/11/26 Javascript
JavaScript DOM 学习第二章 编辑文本
2010/02/19 Javascript
jQuery 重复加载错误以及修复方法
2014/12/16 Javascript
jquery判断单选按钮radio是否选中的方法
2015/05/05 Javascript
基于jQuery的ajax方法封装
2016/07/14 Javascript
jquery实现刷新随机变化样式特效(tag标签样式)
2017/02/03 Javascript
jQuery插件echarts去掉垂直网格线用法示例
2017/03/03 Javascript
js实现日期显示的一些操作(实例讲解)
2017/07/27 Javascript
详解基于vue的移动web app页面缓存解决方案
2017/08/03 Javascript
javascript 作用于作用域链的详解
2017/09/27 Javascript
对angular 实时更新模板视图的方法$apply详解
2018/10/09 Javascript
小白教程|一小时上手最流行的前端框架vue(推荐)
2019/04/10 Javascript
javascript异步处理与Jquery deferred对象用法总结
2019/06/04 jQuery
[02:15]2014DOTA2国际邀请赛 赛后退役选手回顾
2014/08/01 DOTA
Django实现快速分页的方法实例
2017/10/22 Python
Ubuntu下Python2与Python3的共存问题
2018/10/31 Python
python pandas读取csv后,获取列标签的方法
2018/11/12 Python
对python捕获ctrl+c手工中断程序的两种方法详解
2018/12/26 Python
基于python操作ES实例详解
2019/11/16 Python
Django admin管理工具TabularInline类用法详解
2020/05/14 Python
从python读取sql的实例方法
2020/07/21 Python
Python实现JS解密并爬取某音漫客网站
2020/10/23 Python
Original Penguin英国官方网站:美国著名休闲时装品牌
2016/10/30 全球购物
澳大利亚现代波西米亚风格女装网站:Bohemian Traders
2018/04/16 全球购物
请介绍一下Ant
2016/07/22 面试题
编程输出如下图形
2013/11/24 面试题
英文简历中的自荐信范文
2013/12/14 职场文书
档案保密承诺书
2014/06/03 职场文书
邀请函样本
2015/02/02 职场文书
如何用Navicat操作MySQL
2021/05/12 MySQL
Python中的xlrd模块使用整理
2021/06/15 Python
使用springMVC所需要的pom配置
2021/09/15 Java/Android