python按比例随机切分数据的实现


Posted in Python onJuly 11, 2019

在机器学习或者深度学习中,我们常常碰到一个问题是数据集的切分。比如在一个比赛中,举办方给我们的只是一个带标注的训练集和不带标注的测试集。其中训练集是用于训练,而测试集用于已训练模型上跑出一个结果,然后提交,然后举办方验证结果给出一个分数。但是我们在训练过程中,可能会出现过拟合等问题,会面临着算法和模型的选择,此时,验证集就显得很重要。通常,如果数据量充足,我们会从训练集中划分出一定比例的数据来作为验证集。

每次划分数据集都手动写一个脚本,重复性太高,因此将此简单的脚本放到自己的博客。代码如下:

import random

def split(full_list,shuffle=False,ratio=0.2):
  n_total = len(full_list)
  offset = int(n_total * ratio)
  if n_total==0 or offset<1:
    return [],full_list
  if shuffle:
    random.shuffle(full_list)
  sublist_1 = full_list[:offset]
  sublist_2 = full_list[offset:]
  return sublist_1,sublist_2


if __name__ == "__main__":
  li = range(5)
  sublist_1,sublist_2 = split(li,shuffle=True,ratio=0.2)

  print sublist_1,len(sublist_1)
  print sublist_2,len(sublist_2)

其中,main为测试代码。假如训练集给出的是一个文件,我们先将文件读到列表中,然后再调用split。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中的CURL PycURL使用例子
Jun 01 Python
Python3实现转换Image图片格式
Jun 21 Python
python3.4爬虫demo
Jan 22 Python
基于python实现的百度音乐下载器python pyqt改进版(附代码)
Aug 05 Python
pygame实现烟雨蒙蒙下彩虹雨
Nov 11 Python
解决Tensorflow 使用时cpu编译不支持警告的问题
Feb 03 Python
Python 格式化输出_String Formatting_控制小数点位数的实例详解
Feb 04 Python
Python3 利用face_recognition实现人脸识别的方法
Mar 13 Python
python 下载m3u8视频的示例代码
Nov 11 Python
pycharm实现猜数游戏
Dec 07 Python
解决pytorch 保存模型遇到的问题
Mar 03 Python
PyTorch中permute的使用方法
Apr 26 Python
Kali Linux安装ipython2 和 ipython3的方法
Jul 11 #Python
Python循环结构的应用场景详解
Jul 11 #Python
python列表,字典,元组简单用法示例
Jul 11 #Python
python实现数据分析与建模
Jul 11 #Python
新手如何发布Python项目开源包过程详解
Jul 11 #Python
让Python脚本暂停执行的几种方法(小结)
Jul 11 #Python
python在openstreetmap地图上绘制路线图的实现
Jul 11 #Python
You might like
PHP删除特定数组内容并且重建数组索引的方法.
2011/03/25 PHP
PHP gbk环境下json_dencode传送来的汉字
2012/11/13 PHP
php生成年月日下载列表的方法
2015/04/24 PHP
PHP的Socket通信之UDP通信实例
2015/07/02 PHP
各种快递查询--Api接口
2016/04/26 PHP
PHP机器学习库php-ml的简单测试和使用方法
2017/07/14 PHP
javascript 字符串连接的性能问题(多浏览器)
2008/11/18 Javascript
JavaScript delete操作符应用实例
2009/01/13 Javascript
jQuery 学习入门篇附实例代码
2010/03/16 Javascript
JS实现时间格式化的方式汇总
2013/10/16 Javascript
javascript常用的方法整理
2015/08/20 Javascript
jQuery中animate的几种用法与注意事项
2016/12/12 Javascript
详解微信开发中snsapi_base和snsapi_userinfo及静默授权的实现
2017/03/11 Javascript
Node.js pipe实现源码解析
2017/08/12 Javascript
使用Vue.js 和Chart.js制作绚丽多彩的图表
2019/06/15 Javascript
微信小程序request请求封装,验签代码实例
2019/12/04 Javascript
vue学习笔记之Vue中css动画原理简单示例
2020/02/29 Javascript
基于vue 动态菜单 刷新空白问题的解决
2020/08/06 Javascript
Python实现的监测服务器硬盘使用率脚本分享
2014/11/07 Python
Python中map,reduce,filter和sorted函数的使用方法
2015/08/17 Python
Python xlwt设置excel单元格字体及格式
2020/04/18 Python
浅谈Python实现贪心算法与活动安排问题
2017/12/19 Python
Django添加feeds功能的示例
2018/08/07 Python
Python实现链表反转的方法分析【迭代法与递归法】
2020/02/22 Python
完美解决ARIMA模型中plot_acf画不出图的问题
2020/06/04 Python
高山背包:High Sierra
2017/11/23 全球购物
白俄罗斯女装和针织品网上商店:Presli.by
2019/10/13 全球购物
学校万圣节活动方案
2014/02/13 职场文书
大型活动组织方案
2014/05/10 职场文书
建筑安全生产目标责任书
2014/07/23 职场文书
综合测评自我评价
2015/03/06 职场文书
超市员工辞职信范文
2015/05/12 职场文书
离婚起诉书范本
2015/05/18 职场文书
幼儿园保育员随笔
2015/08/14 职场文书
《平行四边形的面积》教学反思
2016/02/16 职场文书
Python中的 No Module named ***问题及解决
2022/07/23 Python