pandas数据集的端到端处理


Posted in Python onFebruary 18, 2019

1. 数据集基本信息

df = pd.read_csv()

df.head():前五行;

df.info():

  • rangeindex:行索引;
  • data columns:列索引;
  • dtypes:各个列的类型,
  • 主体部分是各个列值的情况,比如可判断是否存在 NaN 值;

对于非数值型的属性列

  • df[‘some_categorical_columns'].value_counts():取值分布;

df.describe(): 各个列的基本统计信息

  • count
  • mean
  • std
  • min/max
  • 25%, 50%, 75%:分位数

df.hist(bins=50, figsize=(20, 15)):统计直方图;

对 df 的每一列进行展示:

train_prices = pd.DataFrame({'price': train_df.SalePrice, 
    'log(price+1)': np.log1p(train_df.SalePrice)})
 # train_prices 共两列,一列列名为 price,一列列名为 log(price+1)
train_prices.hist()

2. 数据集拆分

def split_train_test(data, test_ratio=.3):
 shuffled_indices = np.random.permutation(len(data))
 test_size = int(len(data)*test_ratio)
 test_indices = shuffled_indices[:test_size]
 train_indices = shuffled_indices[test_size:]
 return data.iloc[train_indices], data.iloc[test_indices]

3. 数据预处理

  • 一键把 categorical 型特征(字符串类型)转化为数值型:
>> df['label'] = pd.Categorical(df['label']).codes
  • 一键把 categorical 型特征(字符串类型)转化为 one-hot 编码:
>> df = pd.get_dummies(df)
  • null 值统计与填充:
>> df.isnull().sum().sort_values(ascending=False).head()
# 填充为 mean 值
>> mean_cols = df.mean()
>> df = df.fillna(mean_cols)
>> df.isnull().sum().sum()
0

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python中关于时间和日期函数的常用计算总结(time和datatime)
Mar 08 Python
使用Python设置tmpfs来加速项目的教程
Apr 17 Python
Python NumPy库安装使用笔记
May 18 Python
在pycharm 中添加运行参数的操作方法
Jan 19 Python
Django使用redis缓存服务器的实现代码示例
Apr 28 Python
用python给自己做一款小说阅读器过程详解
Jul 11 Python
python 用户交互输入input的4种用法详解
Sep 24 Python
Python+OpenCV实现图像的全景拼接
Mar 05 Python
Python求凸包及多边形面积教程
Apr 12 Python
python实现磁盘日志清理的示例
Nov 05 Python
详解Java中一维、二维数组在内存中的结构
Feb 11 Python
python中的sys模块和os模块
Mar 20 Python
Python 数据库操作 SQLAlchemy的示例代码
Feb 18 #Python
Python列表常见操作详解(获取,增加,删除,修改,排序等)
Feb 18 #Python
Python File(文件) 方法整理
Feb 18 #Python
Python异常处理知识点总结
Feb 18 #Python
Python os.access()用法实例
Feb 18 #Python
python使用pipeline批量读写redis的方法
Feb 18 #Python
Python变量类型知识点总结
Feb 18 #Python
You might like
让你同时上传 1000 个文件 (二)
2006/10/09 PHP
php批量删除数据库下指定前缀的表以prefix_为例
2014/08/24 PHP
PHP的Yii框架的基本使用示例
2015/08/21 PHP
php实现Session存储到Redis
2015/11/11 PHP
PHP底层运行机制与工作原理详解
2020/07/31 PHP
JS中eval函数的使用示例
2013/07/21 Javascript
一款jquery特效编写的大度宽屏焦点图切换特效的实例代码
2013/08/05 Javascript
jquery提取元素里的纯文本不包含span等里的内容
2013/09/30 Javascript
一个CSS+jQuery实现的放大缩小动画效果
2014/02/19 Javascript
jQuery插件实现控制网页元素动态居中显示
2015/03/24 Javascript
JavaScript弹出新窗口并控制窗口移动到指定位置的方法
2015/04/06 Javascript
jquery读取xml文件实现省市县三级联动的方法
2015/05/29 Javascript
JS仿淘宝实现的简单滑动门效果代码
2015/10/14 Javascript
js基于cookie方式记住返回页面用法示例
2016/05/27 Javascript
浅谈javascript中的constructor
2016/06/08 Javascript
Node.js Mongodb 密码特殊字符 @的解决方法
2017/04/11 Javascript
使用jquery+iframe做一个ajax上传效果(实例)
2017/08/24 jQuery
node.js基于express使用websocket的方法
2017/11/09 Javascript
JavaScript常见继承模式实例小结
2019/01/11 Javascript
JavaScript动态创建二维数组的方法示例
2019/02/01 Javascript
移动端吸顶fixbar的解决方案详解
2019/07/17 Javascript
在Vue中使用antv的示例代码
2020/06/29 Javascript
JS实现鼠标按下拖拽效果
2020/07/23 Javascript
Django中的CACHE_BACKEND参数和站点级Cache设置
2015/07/23 Python
Python使用QRCode模块生成二维码实例详解
2017/06/14 Python
对python 数据处理中的LabelEncoder 和 OneHotEncoder详解
2018/07/11 Python
OpenCV+python实现膨胀和腐蚀的示例
2020/12/21 Python
使用html2canvas实现浏览器截图的示例代码
2018/01/26 HTML / CSS
html5 视频播放解决方案
2016/11/06 HTML / CSS
微信小程序“圣诞帽”的实现思路详解
2017/12/28 HTML / CSS
印度第一网上礼品店:IGP.com
2020/02/06 全球购物
库存图片、照片、矢量图、视频和音乐:Shutterstock
2021/02/12 全球购物
家长给孩子的表扬信
2014/01/17 职场文书
校园之星获奖感言
2014/01/29 职场文书
Apache POI的基本使用详解
2021/11/07 Servers
Elasticsearch Recovery 详细介绍
2022/04/19 Java/Android