python Pandas如何对数据集随机抽样


Posted in Python onJuly 29, 2019

摘要:有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。

应用场景:

python Pandas如何对数据集随机抽样

我有10W行数据,每一行都11列的属性。

现在,我们只需要随机抽取其中的2W行。

实现方法很简单:

利用Pandas库中的sample。

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

n是要抽取的行数。(例如n=20000时,抽取其中的2W行)

frac是抽取的比列。(有一些时候,我们并对具体抽取的行数不关系,我们想抽取其中的百分比,这个时候就可以选择使用frac,例如frac=0.8,就是抽取其中80%)

replace:是否为有放回抽样,取replace=True时为有放回抽样。

weights这个是每个样本的权重,具体可以看官方文档说明。

random_state这个在之前的文章已经介绍过了。

axis是选择抽取数据的行还是列。axis=0的时是抽取行,axis=1时是抽取列(也就是说axis=1时,在列中随机抽取n列,在axis=0时,在行中随机抽取n行)

具体用法:

假设DataFrame为df

import pandas as pd
df.sample(n=20000)

python Pandas如何对数据集随机抽样

另外,介绍一种不是Pandas中的方法。如果想用Numpy这个库进行也可以。

import numpy as np
np.random.sample(Your_index)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python将人民币转换大写的脚本代码
Feb 10 Python
python实现人人网登录示例分享
Jan 19 Python
python修改list中所有元素类型的三种方法
Apr 09 Python
使用Python抓取豆瓣影评数据的方法
Oct 17 Python
python调用百度地图WEB服务API获取地点对应坐标值
Jan 16 Python
Django Channels 实现点对点实时聊天和消息推送功能
Jul 17 Python
django 消息框架 message使用详解
Jul 22 Python
python实现LRU热点缓存及原理
Oct 29 Python
python实现ftp文件传输功能
Mar 20 Python
给Django Admin添加验证码和多次登录尝试限制的实现
Jul 26 Python
Python代码注释规范代码实例解析
Aug 14 Python
matplotlib画混淆矩阵与正确率曲线的实例代码
Jun 01 Python
python Django 创建应用过程图示详解
Jul 29 #Python
使用Pandas对数据进行筛选和排序的实现
Jul 29 #Python
Python+Pyqt实现简单GUI电子时钟
Feb 22 #Python
pycharm修改文件的默认打开方式的步骤
Jul 29 #Python
Python Django Vue 项目创建过程详解
Jul 29 #Python
python cumsum函数的具体使用
Jul 29 #Python
python利用re,bs4,requests模块获取股票数据
Jul 29 #Python
You might like
php查询相似度最高的字符串的方法
2015/03/12 PHP
php面向对象基础详解【星际争霸游戏案例】
2020/01/23 PHP
JQuery this 和 $(this) 的区别
2009/08/23 Javascript
Javascript UrlDecode函数代码
2010/01/09 Javascript
基于jQuery的弹出消息插件 DivAlert之旅(一)
2010/04/01 Javascript
js实现鼠标划过给div加透明度的方法
2015/05/25 Javascript
JS清除文本框内容离开在恢复及鼠标离开文本框时触发js的方法
2016/01/12 Javascript
javascript深拷贝(deepClone)详解
2016/08/24 Javascript
Javascript点击按钮随机改变数字与其颜色
2016/09/01 Javascript
AngularJs html compiler详解及示例代码
2016/09/01 Javascript
jQuery表格(Table)基本操作实例分析
2017/03/10 Javascript
Vue.js基础学习之class与样式绑定
2017/03/20 Javascript
Ionic3 UI组件之autocomplete详解
2017/06/08 Javascript
详解javascript常用工具类的封装
2018/01/30 Javascript
详解Vue Elememt-UI构建管理后台
2018/02/27 Javascript
js逆向解密之网络爬虫
2019/05/30 Javascript
基于form-data请求格式详解
2019/10/29 Javascript
JS实现动态倒计时功能(天数、时、分、秒)
2019/12/12 Javascript
有关wxpython pyqt内存占用问题分析
2014/06/09 Python
使用Python的Tornado框架实现一个一对一聊天的程序
2015/04/25 Python
浅析python继承与多重继承
2018/09/13 Python
django 中的聚合函数,分组函数,F 查询,Q查询
2019/07/25 Python
python 提取文件指定列的方法示例
2019/08/07 Python
解决python脚本中error: unrecognized arguments: True错误
2020/04/20 Python
PyTorch预训练Bert模型的示例
2020/11/17 Python
Python爬虫进阶之爬取某视频并下载的实现
2020/12/08 Python
css3 flex布局 justify-content:space-between 最后一行左对齐
2020/01/02 HTML / CSS
canvas实现高阶贝塞尔曲线(N阶贝塞尔曲线生成器)
2018/01/10 HTML / CSS
台湾百利市购物中心:e-Payless
2017/08/16 全球购物
Nike比利时官网:Nike.com (BE)
2019/02/07 全球购物
办公室前台岗位职责范本
2013/12/10 职场文书
称象教学反思
2014/02/03 职场文书
数学教师求职信范文
2015/03/20 职场文书
公司处罚决定书
2015/06/24 职场文书
用python开发一款操作MySQL的小工具
2021/05/12 Python
利用Python多线程实现图片下载器
2022/03/25 Python