python 划分数据集为训练集和测试集的方法


Posted in Python onDecember 11, 2018

sklearn的cross_validation包中含有将数据集按照一定的比例,随机划分为训练集和测试集的函数train_test_split

from sklearn.cross_validation import train_test_split
#x为数据集的feature熟悉,y为label.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3)

得到的x_train,y_train(x_test,y_test)的index对应的是x,y中被抽取到的序号。

若train_test_split传入的是带有label的数据,则如下代码:

from sklearn.cross_validation import train_test_split
#dat为数据集,含有feature和label.
train, test = train_test_split(dat, test_size = 0.3)

train,test含有feature和label的。

自己写了一个函数:

#X:含label的数据集:分割成训练集和测试集
#test_size:测试集占整个数据集的比例
def trainTestSplit(X,test_size=0.3):
 X_num=X.shape[0]
 train_index=range(X_num)
 test_index=[]
 test_num=int(X_num*test_size)
 for i in range(test_num):
  randomIndex=int(np.random.uniform(0,len(train_index)))
  test_index.append(train_index[randomIndex])
  del train_index[randomIndex]
 #train,test的index是抽取的数据集X的序号
 train=X.ix[train_index] 
 test=X.ix[test_index]
 return train,test

以上这篇python 划分数据集为训练集和测试集的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现根据指定端口探测服务器/模块部署的方法
Aug 25 Python
深入解析Python中的变量和赋值运算符
Oct 12 Python
实践Python的爬虫框架Scrapy来抓取豆瓣电影TOP250
Jan 20 Python
Python Paramiko模块的安装与使用详解
Nov 18 Python
python的socket编程入门
Jan 29 Python
python使用mysql的两种使用方式
Mar 07 Python
Python实现正弦信号的时域波形和频谱图示例【基于matplotlib】
May 04 Python
python针对mysql数据库的连接、查询、更新、删除操作示例
Sep 11 Python
Numpy一维线性插值函数的用法
Apr 22 Python
使用Keras预训练好的模型进行目标类别预测详解
Jun 27 Python
python软件测试Jmeter性能测试JDBC Request(结合数据库)的使用详解
Jan 26 Python
Pycharm制作搞怪弹窗的实现代码
Feb 19 Python
Python sklearn KFold 生成交叉验证数据集的方法
Dec 11 #Python
想学python 这5本书籍你必看!
Dec 11 #Python
对python中数据集划分函数StratifiedShuffleSplit的使用详解
Dec 11 #Python
Python3爬虫学习入门教程
Dec 11 #Python
Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】
Dec 11 #Python
python绘制散点图并标记序号的方法
Dec 11 #Python
pandas分别写入excel的不同sheet方法
Dec 11 #Python
You might like
php 字符转义 注意事项
2009/05/27 PHP
ThinkPHP结合ajax、Mysql实现的客户端通信功能代码示例
2014/06/23 PHP
PHP版本常用的排序算法汇总
2015/12/20 PHP
JavaScript中的Location地址对象
2008/01/16 Javascript
添加JavaScript重载函数的辅助方法2
2010/07/04 Javascript
解决Extjs4中form表单提交后无法进入success函数问题
2013/11/26 Javascript
javascript实现控制div颜色
2015/07/07 Javascript
jquery遍历函数siblings()用法实例
2015/12/24 Javascript
Nodejs Stream 数据流使用手册
2016/04/17 NodeJs
AngularJS  ng-table插件设置排序
2016/09/21 Javascript
实例浅析js的this
2016/12/11 Javascript
微信小程序项目实践之主页tab选项实现
2018/07/18 Javascript
VUE渲染后端返回含有script标签的html字符串示例
2019/10/28 Javascript
vue 验证两次输入的密码是否一致的方法示例
2020/09/29 Javascript
django模型中的字段和model名显示为中文小技巧分享
2014/11/18 Python
Python 3.6 性能测试框架Locust安装及使用方法(详解)
2017/10/11 Python
python ddt实现数据驱动
2018/03/14 Python
Python延时操作实现方法示例
2018/08/14 Python
python使用装饰器作日志处理的方法
2019/07/11 Python
Python安装selenium包详细过程
2019/07/23 Python
Django项目后台不挂断运行的方法
2019/08/31 Python
Python模块的定义,模块的导入,__name__用法实例分析
2020/01/07 Python
CSS3的resize属性使用初探
2015/09/27 HTML / CSS
H&M美国官网:欧洲最大的服饰零售商
2016/09/07 全球购物
Madewell美德威尔美国官网:美国休闲服饰品牌
2016/11/25 全球购物
白俄罗斯在线大型超市:e-dostavka.by
2019/07/25 全球购物
几道PHP面试题
2013/04/14 面试题
教师个人的自我评价分享
2014/01/02 职场文书
精神文明建设标语
2014/06/16 职场文书
公安民警正风肃纪剖析材料
2014/10/10 职场文书
建议书格式
2015/02/04 职场文书
大学入学感言
2015/08/01 职场文书
将图片保存到mysql数据库并展示在前端页面的实现代码
2021/05/02 MySQL
Django给表单添加honeypot验证增加安全性
2021/05/06 Python
vue选项卡切换的实现案例
2022/04/11 Vue.js
SQL Server2019安装的详细步骤实战记录(亲测可用)
2022/06/10 SQL Server