pandas数据集的端到端处理


Posted in Python onFebruary 18, 2019

1. 数据集基本信息

df = pd.read_csv()

df.head():前五行;

df.info():

  • rangeindex:行索引;
  • data columns:列索引;
  • dtypes:各个列的类型,
  • 主体部分是各个列值的情况,比如可判断是否存在 NaN 值;

对于非数值型的属性列

  • df[‘some_categorical_columns'].value_counts():取值分布;

df.describe(): 各个列的基本统计信息

  • count
  • mean
  • std
  • min/max
  • 25%, 50%, 75%:分位数

df.hist(bins=50, figsize=(20, 15)):统计直方图;

对 df 的每一列进行展示:

train_prices = pd.DataFrame({'price': train_df.SalePrice, 
    'log(price+1)': np.log1p(train_df.SalePrice)})
 # train_prices 共两列,一列列名为 price,一列列名为 log(price+1)
train_prices.hist()

2. 数据集拆分

def split_train_test(data, test_ratio=.3):
 shuffled_indices = np.random.permutation(len(data))
 test_size = int(len(data)*test_ratio)
 test_indices = shuffled_indices[:test_size]
 train_indices = shuffled_indices[test_size:]
 return data.iloc[train_indices], data.iloc[test_indices]

3. 数据预处理

  • 一键把 categorical 型特征(字符串类型)转化为数值型:
>> df['label'] = pd.Categorical(df['label']).codes
  • 一键把 categorical 型特征(字符串类型)转化为 one-hot 编码:
>> df = pd.get_dummies(df)
  • null 值统计与填充:
>> df.isnull().sum().sort_values(ascending=False).head()
# 填充为 mean 值
>> mean_cols = df.mean()
>> df = df.fillna(mean_cols)
>> df.isnull().sum().sum()
0

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
教你如何将 Sublime 3 打造成 Python/Django IDE开发利器
Jul 04 Python
python实现马耳可夫链算法实例分析
May 20 Python
在windows系统中实现python3安装lxml
Mar 23 Python
横向对比分析Python解析XML的四种方式
Mar 30 Python
详解Python中的Descriptor描述符类
Jun 14 Python
判断网页编码的方法python版
Aug 12 Python
Python制作词云的方法
Jan 03 Python
使用apidoc管理RESTful风格Flask项目接口文档方法
Feb 07 Python
python读取word文档,插入mysql数据库的示例代码
Nov 07 Python
python实现多线程端口扫描
Aug 31 Python
python获取array中指定元素的示例
Nov 26 Python
修改Pandas的行或列的名字(重命名)
Dec 18 Python
Python 数据库操作 SQLAlchemy的示例代码
Feb 18 #Python
Python列表常见操作详解(获取,增加,删除,修改,排序等)
Feb 18 #Python
Python File(文件) 方法整理
Feb 18 #Python
Python异常处理知识点总结
Feb 18 #Python
Python os.access()用法实例
Feb 18 #Python
python使用pipeline批量读写redis的方法
Feb 18 #Python
Python变量类型知识点总结
Feb 18 #Python
You might like
PHP新手NOTICE错误常见解决方法
2011/12/07 PHP
修改apache配置文件去除thinkphp url中的index.php
2014/01/17 PHP
PHP设计模式之观察者模式(Observer)详细介绍和代码实例
2014/04/08 PHP
Smarty实现页面静态化(生成HTML)的方法
2016/05/23 PHP
thinkPHP简单实现多个子查询语句的方法
2016/12/05 PHP
PHP新特性之字节码缓存和内置服务器
2017/08/11 PHP
PHP5中使用mysqli的prepare操作数据库的介绍
2019/03/18 PHP
js wmp操作代码小结(音乐连播功能)
2008/11/08 Javascript
纯CSS打造的导航菜单(附jquery版)
2010/08/07 Javascript
EasyUI中的tree用法介绍
2011/11/01 Javascript
JavaScript判断密码强度(自写代码)
2013/09/06 Javascript
js判断浏览器是否支持html5
2014/08/17 Javascript
js控制TR的显示隐藏
2016/03/04 Javascript
JavaScript实现刷新不重记的倒计时
2016/08/10 Javascript
AngularJS中如何使用echart插件示例详解
2016/10/26 Javascript
JS实现列表页面隔行变色效果
2017/03/25 Javascript
基于input动态模糊查询的实现方法
2017/12/12 Javascript
详解vue中v-bind:style效果的自定义指令
2020/01/21 Javascript
JavaScript运行机制实例分析
2020/04/11 Javascript
微信小程序连接服务器展示MQTT数据信息的实现
2020/07/14 Javascript
Vue检测屏幕变化来改变不同的charts样式实例
2020/10/26 Javascript
[00:12]2018DOTA2亚洲邀请赛SOLO赛 MidOne是否中单第一人?
2018/04/05 DOTA
Python列表切片用法示例
2017/04/19 Python
详解TensorFlow查看ckpt中变量的几种方法
2018/06/19 Python
利用Pycharm断点调试Python程序的方法
2018/11/29 Python
如何利用Anaconda配置简单的Python环境
2019/06/24 Python
Python中那些 Pythonic的写法详解
2019/07/02 Python
详解python中的数据类型和控制流
2019/08/08 Python
基于Python第三方插件实现西游记章节标注汉语拼音的方法
2020/05/22 Python
德国自行车商店:Tretwerk
2019/06/21 全球购物
管理部部长岗位职责
2013/12/05 职场文书
药店采购员岗位职责
2014/09/30 职场文书
2016党员干部反腐倡廉心得体会
2016/01/13 职场文书
2019年让高校“心动”的自荐信
2019/03/25 职场文书
私人贷款担保书该怎么写呢?
2019/07/02 职场文书
为什么MySQL 删除表数据 磁盘空间还一直被占用
2021/10/16 MySQL