python Pandas如何对数据集随机抽样


Posted in Python onJuly 29, 2019

摘要:有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。

应用场景:

python Pandas如何对数据集随机抽样

我有10W行数据,每一行都11列的属性。

现在,我们只需要随机抽取其中的2W行。

实现方法很简单:

利用Pandas库中的sample。

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

n是要抽取的行数。(例如n=20000时,抽取其中的2W行)

frac是抽取的比列。(有一些时候,我们并对具体抽取的行数不关系,我们想抽取其中的百分比,这个时候就可以选择使用frac,例如frac=0.8,就是抽取其中80%)

replace:是否为有放回抽样,取replace=True时为有放回抽样。

weights这个是每个样本的权重,具体可以看官方文档说明。

random_state这个在之前的文章已经介绍过了。

axis是选择抽取数据的行还是列。axis=0的时是抽取行,axis=1时是抽取列(也就是说axis=1时,在列中随机抽取n列,在axis=0时,在行中随机抽取n行)

具体用法:

假设DataFrame为df

import pandas as pd
df.sample(n=20000)

python Pandas如何对数据集随机抽样

另外,介绍一种不是Pandas中的方法。如果想用Numpy这个库进行也可以。

import numpy as np
np.random.sample(Your_index)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
仅用50行Python代码实现一个简单的代理服务器
Apr 08 Python
举例讲解Python中的list列表数据结构用法
Mar 12 Python
Python浅复制中对象生存周期实例分析
Apr 02 Python
Django添加sitemap的方法示例
Aug 06 Python
Python中extend和append的区别讲解
Jan 24 Python
十个Python练手的实战项目,学会这些Python就基本没问题了(推荐)
Apr 26 Python
PyQt5 QTable插入图片并动态更新的实例
Jun 18 Python
python实现翻转棋游戏(othello)
Jul 29 Python
python等差数列求和公式前 100 项的和实例
Feb 25 Python
pip安装tensorflow的坑的解决
Apr 19 Python
Django 用户登陆访问限制实例 @login_required
May 13 Python
Python urllib3软件包的使用说明
Nov 18 Python
python Django 创建应用过程图示详解
Jul 29 #Python
使用Pandas对数据进行筛选和排序的实现
Jul 29 #Python
Python+Pyqt实现简单GUI电子时钟
Feb 22 #Python
pycharm修改文件的默认打开方式的步骤
Jul 29 #Python
Python Django Vue 项目创建过程详解
Jul 29 #Python
python cumsum函数的具体使用
Jul 29 #Python
python利用re,bs4,requests模块获取股票数据
Jul 29 #Python
You might like
php获取mysql数据库中的所有表名的代码
2011/04/23 PHP
解析php中如何直接执行SHELL
2013/06/28 PHP
php+mysqli实现批量执行插入、更新及删除数据的方法
2015/01/29 PHP
php使用curl代理实现抓取数据的方法
2017/02/03 PHP
PHP架构及原理知识点详解
2019/12/22 PHP
悄悄用脚本检查你访问过哪些网站的代码
2010/12/04 Javascript
javascript创建和存储cookie示例
2014/01/07 Javascript
使用js dom和jquery分别实现简单增删改
2014/09/11 Javascript
原生javascript实现图片按钮切换
2015/01/12 Javascript
js判断文本框剩余可输入字数的方法
2015/02/04 Javascript
JavaScript获得url所有参数键值表的方法
2015/03/21 Javascript
自定义Angular指令与jQuery实现的Bootstrap风格数据双向绑定的单选与多选下拉框
2015/12/12 Javascript
js重写方法的简单实现
2016/07/10 Javascript
浅谈JavaScript 中有关时间对象的方法
2016/08/15 Javascript
Vue.js开发环境搭建
2016/11/10 Javascript
作为老司机使用 React 总结的 11 个经验教训
2017/04/08 Javascript
引入JavaScript时alert弹出框显示中文乱码问题
2017/09/16 Javascript
本地搭建微信小程序服务器的实现方法
2017/10/27 Javascript
微信小程序调用摄像头隐藏式拍照功能
2018/08/22 Javascript
iview在vue-cli3如何按需加载的方法
2018/10/31 Javascript
详解小程序如何改变onLoad的执行时机
2019/11/01 Javascript
JavaScript鼠标拖拽事件详解
2020/04/03 Javascript
解决angular 使用原生拖拽页面卡顿及表单控件输入延迟问题
2020/04/21 Javascript
[02:57]DOTA2亚洲邀请赛小组赛第四日 赛事回顾
2015/02/02 DOTA
[32:47]完美世界DOTA2联赛 GXR vs IO 第二场 11.07
2020/11/09 DOTA
调试Python程序代码的几种方法总结
2015/04/28 Python
使用Kivy将python程序打包为apk文件
2017/07/29 Python
matplotlib.pyplot绘图显示控制方法
2019/01/15 Python
Python实现bilibili时间长度查询的示例代码
2020/01/14 Python
Python猫眼电影最近上映的电影票房信息
2020/09/18 Python
python从Oracle读取数据生成图表
2020/10/14 Python
苹果音乐订阅:Apple Music
2018/08/02 全球购物
武汉英思工程科技有限公司–ORACLE面试测试题目
2012/04/30 面试题
高校教师个人总结
2015/02/10 职场文书
2015年司法局工作总结
2015/05/22 职场文书
redis中lua脚本使用教程
2021/11/01 Redis