python 划分数据集为训练集和测试集的方法


Posted in Python onDecember 11, 2018

sklearn的cross_validation包中含有将数据集按照一定的比例,随机划分为训练集和测试集的函数train_test_split

from sklearn.cross_validation import train_test_split
#x为数据集的feature熟悉,y为label.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3)

得到的x_train,y_train(x_test,y_test)的index对应的是x,y中被抽取到的序号。

若train_test_split传入的是带有label的数据,则如下代码:

from sklearn.cross_validation import train_test_split
#dat为数据集,含有feature和label.
train, test = train_test_split(dat, test_size = 0.3)

train,test含有feature和label的。

自己写了一个函数:

#X:含label的数据集:分割成训练集和测试集
#test_size:测试集占整个数据集的比例
def trainTestSplit(X,test_size=0.3):
 X_num=X.shape[0]
 train_index=range(X_num)
 test_index=[]
 test_num=int(X_num*test_size)
 for i in range(test_num):
  randomIndex=int(np.random.uniform(0,len(train_index)))
  test_index.append(train_index[randomIndex])
  del train_index[randomIndex]
 #train,test的index是抽取的数据集X的序号
 train=X.ix[train_index] 
 test=X.ix[test_index]
 return train,test

以上这篇python 划分数据集为训练集和测试集的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python使用append合并两个数组的方法
Apr 28 Python
Python面向对象编程中关于类和方法的学习笔记
Jun 30 Python
python打包压缩、读取指定目录下的指定类型文件
Apr 12 Python
tensorflow实现加载mnist数据集
Sep 08 Python
实时获取Python的print输出流方法
Jan 07 Python
Laravel+Dingo/Api 自定义响应的实现
Feb 17 Python
更新修改后的Python模块方法
Mar 03 Python
pandas 缺失值与空值处理的实现方法
Oct 12 Python
关于sys.stdout和print的区别详解
Dec 05 Python
python多线程实现代码(模拟银行服务操作流程)
Jan 13 Python
M1芯片安装python3.9.1的实现
Feb 02 Python
教你漂亮打印Pandas DataFrames和Series
May 29 Python
Python sklearn KFold 生成交叉验证数据集的方法
Dec 11 #Python
想学python 这5本书籍你必看!
Dec 11 #Python
对python中数据集划分函数StratifiedShuffleSplit的使用详解
Dec 11 #Python
Python3爬虫学习入门教程
Dec 11 #Python
Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】
Dec 11 #Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
You might like
PHP统计目录下的文件总数及代码行数(去除注释及空行)
2011/01/17 PHP
几个有用的php字符串过滤,转换函数代码
2012/05/01 PHP
php分页思路以及在ZF中的使用
2012/05/30 PHP
php从文件夹随机读取文件的方法
2015/06/01 PHP
高质量PHP代码的50个实用技巧必备(下)
2016/01/22 PHP
PHP Cookei记录用户历史浏览信息的代码
2016/02/03 PHP
ThinkPHP3.2框架使用addAll()批量插入数据的方法
2017/03/16 PHP
PHP实现的装箱算法示例
2018/06/23 PHP
PHP实现获取ip地址的5种方法,以及插入用户登录日志操作示例
2019/02/28 PHP
laravel-admin的多级联动方法
2019/09/30 PHP
javascript 解析url的search方法
2010/02/09 Javascript
使用Firebug对js进行断点调试的图文方法
2011/04/02 Javascript
JavaScript的setAttribute兼容性问题解决方法
2013/11/11 Javascript
node.js中的console.log方法使用说明
2014/12/09 Javascript
JQuery控制div外点击隐藏而div内点击不会隐藏的方法
2015/01/13 Javascript
Javascript将JSON日期格式化
2016/08/23 Javascript
EditPlus中的正则表达式 实战(2)
2016/12/15 Javascript
jquery仿苹果的时间/日期选择效果
2017/03/08 Javascript
js oncontextmenu事件使用详解
2017/03/25 Javascript
jquery与js实现全选功能的区别
2017/06/11 jQuery
解决vue页面DOM操作不生效的问题
2018/03/17 Javascript
jQuery超简单遮罩层实现方法示例
2018/09/06 jQuery
详解JavaScript之ES5的继承
2020/07/08 Javascript
解读Django框架中的低层次缓存API
2015/07/24 Python
Python(TensorFlow框架)实现手写数字识别系统的方法
2018/05/29 Python
基于python实现聊天室程序
2018/07/27 Python
python 堆和优先队列的使用详解
2019/03/05 Python
快速解决vue.js 模板和jinja 模板冲突的问题
2019/07/26 Python
Python编程快速上手——选择性拷贝操作案例分析
2020/02/28 Python
Python jieba结巴分词原理及用法解析
2020/11/05 Python
在C语言中实现抽象数据类型什么方法最好
2014/06/26 面试题
自我评价的正确写法
2013/09/19 职场文书
2014年幼儿园教学工作总结
2014/12/04 职场文书
Python激活Anaconda环境变量的详细步骤
2021/06/08 Python
Apache Hudi集成Spark SQL操作hide表
2022/03/31 Servers
vue中div禁止点击事件的实现
2022/04/02 Vue.js