pandas数据集的端到端处理


Posted in Python onFebruary 18, 2019

1. 数据集基本信息

df = pd.read_csv()

df.head():前五行;

df.info():

  • rangeindex:行索引;
  • data columns:列索引;
  • dtypes:各个列的类型,
  • 主体部分是各个列值的情况,比如可判断是否存在 NaN 值;

对于非数值型的属性列

  • df[‘some_categorical_columns'].value_counts():取值分布;

df.describe(): 各个列的基本统计信息

  • count
  • mean
  • std
  • min/max
  • 25%, 50%, 75%:分位数

df.hist(bins=50, figsize=(20, 15)):统计直方图;

对 df 的每一列进行展示:

train_prices = pd.DataFrame({'price': train_df.SalePrice, 
    'log(price+1)': np.log1p(train_df.SalePrice)})
 # train_prices 共两列,一列列名为 price,一列列名为 log(price+1)
train_prices.hist()

2. 数据集拆分

def split_train_test(data, test_ratio=.3):
 shuffled_indices = np.random.permutation(len(data))
 test_size = int(len(data)*test_ratio)
 test_indices = shuffled_indices[:test_size]
 train_indices = shuffled_indices[test_size:]
 return data.iloc[train_indices], data.iloc[test_indices]

3. 数据预处理

  • 一键把 categorical 型特征(字符串类型)转化为数值型:
>> df['label'] = pd.Categorical(df['label']).codes
  • 一键把 categorical 型特征(字符串类型)转化为 one-hot 编码:
>> df = pd.get_dummies(df)
  • null 值统计与填充:
>> df.isnull().sum().sort_values(ascending=False).head()
# 填充为 mean 值
>> mean_cols = df.mean()
>> df = df.fillna(mean_cols)
>> df.isnull().sum().sum()
0

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python字典多条件排序方法实例
Jun 30 Python
python实现带验证码网站的自动登陆实现代码
Jan 12 Python
python:socket传输大文件示例
Jan 18 Python
Python实现简单的语音识别系统
Dec 13 Python
解决python报错MemoryError的问题
Jun 26 Python
Django使用 Bootstrap 样式修改书籍列表过程解析
Aug 09 Python
Django模板导入母版继承和自定义返回Html片段过程解析
Sep 18 Python
Python递归调用实现数字累加的代码
Feb 25 Python
django模型动态修改参数,增加 filter 字段的方式
Mar 16 Python
Python实现寻找回文数字过程解析
Jun 09 Python
Python 的 __str__ 和 __repr__ 方法对比
Sep 02 Python
Python常用配置文件ini、json、yaml读写总结
Jul 09 Python
Python 数据库操作 SQLAlchemy的示例代码
Feb 18 #Python
Python列表常见操作详解(获取,增加,删除,修改,排序等)
Feb 18 #Python
Python File(文件) 方法整理
Feb 18 #Python
Python异常处理知识点总结
Feb 18 #Python
Python os.access()用法实例
Feb 18 #Python
python使用pipeline批量读写redis的方法
Feb 18 #Python
Python变量类型知识点总结
Feb 18 #Python
You might like
一步一步学习PHP(2)――PHP类型
2010/02/15 PHP
php下拉选项的批量操作的实现代码
2013/10/14 PHP
分析PHP中单双引号的误区和双引号小隐患
2016/07/19 PHP
PHP工厂模式的日常使用
2019/03/20 PHP
PHP的cookie与session原理及用法详解
2019/09/27 PHP
原生javascript获取元素样式
2014/12/31 Javascript
js实现对table动态添加、删除和更新的方法
2015/02/10 Javascript
文本框只能输入数字的实现方法(兼容IE火狐)
2016/06/25 Javascript
jQuery中layer分页器的使用
2017/03/13 Javascript
vue 中的keep-alive实例代码
2018/07/20 Javascript
详解React之key的使用和实践
2018/09/29 Javascript
JS实现鼠标拖拽盒子移动及右键点击盒子消失效果示例
2019/01/29 Javascript
vant IndexBar实现的城市列表的示例代码
2019/11/20 Javascript
完美解决通过IP地址访问VUE项目的问题
2020/07/18 Javascript
vue-simple-uploader上传成功之后的response获取代码
2020/09/07 Javascript
浅谈javascript事件环微任务和宏任务队列原理
2020/09/12 Javascript
[13:21]DOTA2国际邀请赛采访专栏:RSnake战队国士无双,Fnatic.Fly
2013/08/06 DOTA
Python用sndhdr模块识别音频格式详解
2018/01/11 Python
ubuntu安装sublime3并配置python3环境的方法
2018/03/15 Python
Python3读取Excel数据存入MySQL的方法
2018/05/04 Python
python矩阵转换为一维数组的实例
2018/06/05 Python
对Python中一维向量和一维向量转置相乘的方法详解
2019/08/26 Python
使用pyqt 实现重复打开多个相同界面
2019/12/13 Python
python实现信号时域统计特征提取代码
2020/02/26 Python
python实现人像动漫化的示例代码
2020/05/17 Python
图片上传插件ImgUploadJS:用HTML5 File API 实现截图粘贴上传、拖拽上传
2016/01/20 HTML / CSS
小米乌克兰网上商店:Xiaomi.UA
2019/10/29 全球购物
工作自我评价分享
2013/12/01 职场文书
初中数学教学反思
2014/01/16 职场文书
电话客服工作职责
2014/07/27 职场文书
水电维修专业推荐信
2014/09/06 职场文书
领导班子四风对照检查材料
2014/09/23 职场文书
抗洪救灾标语
2014/10/08 职场文书
2014党的群众路线教育实践活动学习心得体会
2014/10/31 职场文书
关于拾金不昧的感谢信(五篇)
2019/10/18 职场文书
【DOTA2】总决赛血虐~ XTREME GAMING vs MAGMA - OGA DOTA PIT 2022 CN
2022/04/02 DOTA