python使用pandas抽样训练数据中某个类别实例


Posted in Python onFebruary 28, 2020

废话真的一句也不想多说,直接看代码吧!

# -*- coding: utf-8 -*- 
 
import numpy 
from sklearn import metrics 
from sklearn.svm import LinearSVC 
from sklearn.naive_bayes import MultinomialNB 
from sklearn import linear_model 
from sklearn.datasets import load_iris 
from sklearn.cross_validation import train_test_split 
from sklearn.preprocessing import OneHotEncoder, StandardScaler 
from sklearn import cross_validation 
from sklearn import preprocessing 
import scipy as sp
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectKBest ,chi2
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
#import iris_data 
 
'''
creativeID,userID,positionID,clickTime,conversionTime,connectionType,
telecomsOperator,appPlatform,sitesetID,positionType,age,gender,
education,marriageStatus,haveBaby,hometown,residence,appID,appCategory,label
'''
 
 
def test():
 df = pd.read_table("/var/lib/mysql-files/data1.csv", sep=",")
 df1 = df[["connectionType","telecomsOperator","appPlatform","sitesetID",
    "positionType","age","gender","education","marriageStatus",
    "haveBaby","hometown","residence","appCategory","label"]]
 print df1["label"].value_counts()
 N_data = df1[df1["label"]==0]
 P_data = df1[df1["label"]==1]
 N_data = N_data.sample(n=P_data.shape[0], frac=None, replace=False, weights=None, random_state=2, axis=0)
 #print df1.loc[:,"label"]==0
 print P_data.shape
 print N_data.shape
 
 data = pd.concat([N_data,P_data])
 print data.shape
 data = data.sample(frac=1).reset_index(drop=True) 
 print data[["label"]]
 return

补充拓展:pandas实现对dataframe抽样

随机抽样

import pandas as pd
#对dataframe随机抽取2000个样本
pd.sample(df, n=2000)

分层抽样

利用sklean中的函数灵活进行抽样

from sklearn.model_selection import train_test_split
#y是在X中的某一个属性列
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, stratify=y)

以上这篇python使用pandas抽样训练数据中某个类别实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python获取本地计算机名字的方法
Apr 29 Python
python3+PyQt5实现柱状图
Apr 24 Python
python3+PyQt5实现拖放功能
Apr 24 Python
Python基础教程之if判断,while循环,循环嵌套
Apr 25 Python
python aiohttp的使用详解
Jun 20 Python
python3实现单目标粒子群算法
Nov 14 Python
django执行数据库查询之后实现返回的结果集转json
Mar 31 Python
在pycharm中关掉ipython console/PyDev操作
Jun 09 Python
python开发前景如何
Jun 11 Python
java字符串格式化输出实例讲解
Jan 06 Python
Python try except else使用详解
Jan 12 Python
Python 处理表格进行成绩排序的操作代码
Jul 26 Python
如何使用repr调试python程序
Feb 28 #Python
Python编程快速上手——Excel到CSV的转换程序案例分析
Feb 28 #Python
python对文件的操作方法汇总
Feb 28 #Python
最新2019Pycharm安装教程 亲测
Feb 28 #Python
Python发送手机动态验证码代码实例
Feb 28 #Python
Python 开发工具PyCharm安装教程图文详解(新手必看)
Feb 28 #Python
Python3使用xlrd、xlwt处理Excel方法数据
Feb 28 #Python
You might like
POSIX 风格和兼容 Perl 风格两种正则表达式主要函数的类比(preg_match, preg_replace, ereg, ereg_replace)
2010/10/12 PHP
PHP验证终端类型是否为手机的简单实例
2017/02/07 PHP
Yii2选项卡的简单使用
2017/05/26 PHP
php使用QueryList轻松采集js动态渲染页面方法
2018/09/11 PHP
jquery提示 "object expected"的解决方法
2009/12/13 Javascript
javascript处理表单示例(javascript提交表单)
2014/04/28 Javascript
实现前后端数据交互方法汇总
2015/04/07 Javascript
js实现显示当前状态的导航效果代码
2015/08/28 Javascript
Bootstrap 折叠(Collapse)插件用法实例详解
2016/06/01 Javascript
移动端基础事件总结与应用
2017/01/12 Javascript
一个Vue视频媒体多段裁剪组件的实现示例
2018/08/09 Javascript
vue中如何实现后台管理系统的权限控制的方法步骤
2019/09/05 Javascript
jQuery HTML css()方法与css类实例详解
2020/05/20 jQuery
js属性对象的hasOwnProperty方法的使用
2021/02/05 Javascript
Python中实现常量(Const)功能
2015/01/28 Python
浅析Python中return和finally共同挖的坑
2017/08/18 Python
Python动刷新抢12306火车票的代码(附源码)
2018/01/24 Python
20个常用Python运维库和模块
2018/02/12 Python
python MysqlDb模块安装及其使用详解
2018/02/23 Python
详解Django的model查询操作与查询性能优化
2018/10/16 Python
python实现中文文本分句的例子
2019/07/15 Python
Under Armour安德玛德国官网:美国高端运动科技品牌
2019/03/09 全球购物
KIKO MILANO俄罗斯官网:意大利领先的化妆品和护肤品品牌
2021/01/09 全球购物
体育教育专业自荐信范文
2013/12/20 职场文书
时尚休闲吧创业计划书
2014/01/25 职场文书
伦敦奥运会口号
2014/06/13 职场文书
企业委托书范本
2014/09/13 职场文书
简单租房协议书(范本)
2014/10/13 职场文书
2014年乡镇纪委工作总结
2014/12/19 职场文书
优秀教研组申报材料
2014/12/26 职场文书
公司内部升职自荐信
2015/03/27 职场文书
护士岗位竞聘书
2015/09/15 职场文书
纪检干部学习心得体会
2016/01/23 职场文书
Golang二维数组的使用方式
2021/05/28 Golang
Python排序算法之插入排序及其优化方案详解
2021/06/11 Python
Windows server 2012 NTP时间同步的实现
2022/06/25 Servers