python使用pandas抽样训练数据中某个类别实例


Posted in Python onFebruary 28, 2020

废话真的一句也不想多说,直接看代码吧!

# -*- coding: utf-8 -*- 
 
import numpy 
from sklearn import metrics 
from sklearn.svm import LinearSVC 
from sklearn.naive_bayes import MultinomialNB 
from sklearn import linear_model 
from sklearn.datasets import load_iris 
from sklearn.cross_validation import train_test_split 
from sklearn.preprocessing import OneHotEncoder, StandardScaler 
from sklearn import cross_validation 
from sklearn import preprocessing 
import scipy as sp
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectKBest ,chi2
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
#import iris_data 
 
'''
creativeID,userID,positionID,clickTime,conversionTime,connectionType,
telecomsOperator,appPlatform,sitesetID,positionType,age,gender,
education,marriageStatus,haveBaby,hometown,residence,appID,appCategory,label
'''
 
 
def test():
 df = pd.read_table("/var/lib/mysql-files/data1.csv", sep=",")
 df1 = df[["connectionType","telecomsOperator","appPlatform","sitesetID",
    "positionType","age","gender","education","marriageStatus",
    "haveBaby","hometown","residence","appCategory","label"]]
 print df1["label"].value_counts()
 N_data = df1[df1["label"]==0]
 P_data = df1[df1["label"]==1]
 N_data = N_data.sample(n=P_data.shape[0], frac=None, replace=False, weights=None, random_state=2, axis=0)
 #print df1.loc[:,"label"]==0
 print P_data.shape
 print N_data.shape
 
 data = pd.concat([N_data,P_data])
 print data.shape
 data = data.sample(frac=1).reset_index(drop=True) 
 print data[["label"]]
 return

补充拓展:pandas实现对dataframe抽样

随机抽样

import pandas as pd
#对dataframe随机抽取2000个样本
pd.sample(df, n=2000)

分层抽样

利用sklean中的函数灵活进行抽样

from sklearn.model_selection import train_test_split
#y是在X中的某一个属性列
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, stratify=y)

以上这篇python使用pandas抽样训练数据中某个类别实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python fileinput模块使用实例
May 28 Python
Python的Django中django-userena组件的简单使用教程
May 30 Python
Python的GUI框架PySide的安装配置教程
Feb 16 Python
详解Python命令行解析工具Argparse
Apr 20 Python
python递归打印某个目录的内容(实例讲解)
Aug 30 Python
pandas 小数位数 精度的处理方法
Jun 09 Python
python提取具有某种特定字符串的行数据方法
Dec 11 Python
Django用户认证系统 组与权限解析
Aug 02 Python
python3中的logging记录日志实现过程及封装成类的操作
May 12 Python
Keras 利用sklearn的ROC-AUC建立评价函数详解
Jun 15 Python
Pytorch上下采样函数--interpolate用法
Jul 07 Python
Python使用pyenv实现多环境管理
Feb 05 Python
如何使用repr调试python程序
Feb 28 #Python
Python编程快速上手——Excel到CSV的转换程序案例分析
Feb 28 #Python
python对文件的操作方法汇总
Feb 28 #Python
最新2019Pycharm安装教程 亲测
Feb 28 #Python
Python发送手机动态验证码代码实例
Feb 28 #Python
Python 开发工具PyCharm安装教程图文详解(新手必看)
Feb 28 #Python
Python3使用xlrd、xlwt处理Excel方法数据
Feb 28 #Python
You might like
人工智能开始玩《星际争霸2》 你的操作跟得上吗?
2017/08/11 星际争霸
PHP下打开URL地址的几种方法小结
2010/05/16 PHP
php操作xml
2013/10/27 PHP
Symfony的安装和配置方法
2016/03/17 PHP
PHP使用preg_split和explode分割textarea存放内容的方法分析
2017/07/03 PHP
Javascript加载速度慢的解决方案
2014/03/11 Javascript
JavaScript结合AJAX_stream实现流式显示
2015/01/08 Javascript
浅析AngularJS中的生命周期和延迟处理
2015/06/18 Javascript
JavaScript处理解析JSON数据过程详解
2015/09/11 Javascript
JS实现的简洁纵向滑动菜单(滑动门)效果
2015/10/19 Javascript
Js遍历键值对形式对象或Map形式的方法
2016/08/08 Javascript
javascript中获取元素标签中间的内容的实现方法
2016/10/08 Javascript
微信小程序 toast 详解及实例代码
2016/11/09 Javascript
基于vue的fullpage.js单页滚动插件
2017/03/20 Javascript
vue 页面加载进度条组件实例
2018/02/05 Javascript
js实现数字从零慢慢增加到指定数字示例
2019/11/07 Javascript
在Python的Django框架中包装视图函数
2015/07/20 Python
pycharm下打开、执行并调试scrapy爬虫程序的方法
2017/11/29 Python
python高效过滤出文件夹下指定文件名结尾的文件实例
2018/10/21 Python
使用selenium和pyquery爬取京东商品列表过程解析
2019/08/15 Python
如何为Python终端提供持久性历史记录
2019/09/03 Python
python GUI库图形界面开发之PyQt5布局控件QVBoxLayout详细使用方法与实例
2020/03/06 Python
Python unittest单元测试框架实现参数化
2020/04/29 Python
解决pycharm导入本地py文件时,模块下方出现红色波浪线的问题
2020/06/01 Python
canvas 橡皮筋式线条绘图应用方法
2019/02/13 HTML / CSS
以特惠价提供在线奢侈品购物:FRMODA.com
2018/01/25 全球购物
会计毕业生自荐信
2013/11/21 职场文书
酒店门卫岗位职责
2013/12/29 职场文书
2015年材料员工作总结
2015/04/30 职场文书
太行山上观后感
2015/06/05 职场文书
房屋转让协议书(标准范本)
2016/03/21 职场文书
JS 基本概念详细介绍
2021/10/16 Javascript
CSS实现单选折叠菜单功能
2021/11/01 HTML / CSS
中国十大神话动漫电影排行榜 哪吒登顶 白蛇缘起排第七
2022/03/21 国漫
Nginx虚拟主机的配置步骤过程全解
2022/03/31 Servers
MySQL数据库查询进阶之多表查询详解
2022/04/08 MySQL