编程 Python

sklearn和keras的数据切分与交叉验证的实例详解

Posted in Python onJune 19, 2020

在训练深度学习模型的时候，通常将数据集切分为训练集和验证集．Keras提供了两种评估模型性能的方法：

使用自动切分的验证集

使用手动切分的验证集

一．自动切分

在Keras中，可以从数据集中切分出一部分作为验证集，并且在每次迭代(epoch)时在验证集中评估模型的性能．

具体地，调用model.fit()训练模型时，可通过validation_split参数来指定从数据集中切分出验证集的比例．

# MLP with automatic validation set
from keras.models import Sequential
from keras.layers import Dense
import numpy
# fix random seed for reproducibility
numpy.random.seed(7)
# load pima indians dataset
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",")
# split into input (X) and output (Y) variables
X = dataset[:,0:8]
Y = dataset[:,8]
# create model
model = Sequential()
model.add(Dense(12, input_dim=8, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
# Compile model
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# Fit the model
model.fit(X, Y, validation_split=0.33, epochs=150, batch_size=10)

validation_split：0~1之间的浮点数，用来指定训练集的一定比例数据作为验证集。验证集将不参与训练，并在每个epoch结束后测试的模型的指标，如损失函数、精确度等。

注意，validation_split的划分在shuffle之前，因此如果你的数据本身是有序的，需要先手工打乱再指定validation_split，否则可能会出现验证集样本不均匀。

二．手动切分

Keras允许在训练模型的时候手动指定验证集．

例如，用sklearn库中的train_test_split()函数将数据集进行切分，然后在keras的model.fit()的时候通过validation_data参数指定前面切分出来的验证集．

# MLP with manual validation set
from keras.models import Sequential
from keras.layers import Dense
from sklearn.model_selection import train_test_split
import numpy
# fix random seed for reproducibility
seed = 7
numpy.random.seed(seed)
# load pima indians dataset
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",")
# split into input (X) and output (Y) variables
X = dataset[:,0:8]
Y = dataset[:,8]
# split into 67% for train and 33% for test
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.33, random_state=seed)
# create model
model = Sequential()
model.add(Dense(12, input_dim=8, activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
# Compile model
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# Fit the model
model.fit(X_train, y_train, validation_data=(X_test,y_test), epochs=150, batch_size=10)

三．K折交叉验证（k-fold cross validation）

将数据集分成k份，每一轮用其中(k-1)份做训练而剩余1份做验证，以这种方式执行k轮，得到k个模型．将k次的性能取平均，作为该算法的整体性能．k一般取值为5或者10．

优点：能比较鲁棒性地评估模型在未知数据上的性能．

缺点：计算复杂度较大．因此，在数据集较大，模型复杂度较高，或者计算资源不是很充沛的情况下，可能不适用，尤其是在训练深度学习模型的时候．

sklearn.model_selection提供了KFold以及RepeatedKFold, LeaveOneOut, LeavePOut, ShuffleSplit, StratifiedKFold, GroupKFold, TimeSeriesSplit等变体．

下面的例子中用的StratifiedKFold采用的是分层抽样，它保证各类别的样本在切割后每一份小数据集中的比例都与原数据集中的比例相同．

# MLP for Pima Indians Dataset with 10-fold cross validation
from keras.models import Sequential
from keras.layers import Dense
from sklearn.model_selection import StratifiedKFold
import numpy
# fix random seed for reproducibility
seed = 7
numpy.random.seed(seed)
# load pima indians dataset
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter=",")
# split into input (X) and output (Y) variables
X = dataset[:,0:8]
Y = dataset[:,8]
# define 10-fold cross validation test harness
kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=seed)
cvscores = []
for train, test in kfold.split(X, Y):
 # create model
  model = Sequential()
  model.add(Dense(12, input_dim=8, activation='relu'))
  model.add(Dense(8, activation='relu'))
  model.add(Dense(1, activation='sigmoid'))
  # Compile model
  model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
  # Fit the model
  model.fit(X[train], Y[train], epochs=150, batch_size=10, verbose=0)
  # evaluate the model
  scores = model.evaluate(X[test], Y[test], verbose=0)
  print("%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))
  cvscores.append(scores[1] * 100)
print("%.2f%% (+/- %.2f%%)" % (numpy.mean(cvscores), numpy.std(cvscores)))

补充知识：训练集，验证集和测试集

训练集：通过最小化目标函数（损失函数 + 正则项），用来训练模型的参数。当目标函数最小化时，完成对模型的训练。

验证集：用来选择模型的阶数。目标函数最小的模型对应的阶数，为模型的最终选择的阶数。

注：

1. 验证集会在训练过程中，反复使用，机器学习中作为选择不同模型的评判标准，深度学习中作为选择网络层数和每层节点数的评判标准。

2. 验证集的使用并非必不可少，如果网络的层数和节点数已经确定，则不需要这一步操作。

测试集：评估模型的泛化能力。根据选择的已经训练好的模型，评估它的泛化能力。

注：

测试集评判的是最终训练好的模型的泛化能力，只进行一次评判。

以上这篇sklearn和keras的数据切分与交叉验证的实例详解就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

sklearn和keras的数据切分与交叉验证的实例详解

- Author -

焦距

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中将阿拉伯数字转换成中文的实现代码

May 19 Python

在Windows8上的搭建Python和Django环境

Jul 03 Python

python threading模块操作多线程介绍

Apr 08 Python

Python操作MySQL数据库9个实用实例

Dec 11 Python

Django自定义用户认证示例详解

Mar 14 Python

pycharm下查看python的变量类型和变量内容的方法

Jun 26 Python

Python读取excel中的图片完美解决方法

Jul 27 Python

python pandas消除空值和空格以及 Nan数据替换方法

Oct 30 Python

对Python3 pyc 文件的使用详解

Feb 16 Python

python 安装库几种方法之cmd,anaconda,pycharm详解

Apr 08 Python

Win10用vscode打开anaconda环境中的python出错问题的解决

May 25 Python

Pytorch模型迁移和迁移学习,导入部分模型参数的操作

Mar 03 Python

Python虚拟环境的创建和包下载过程分析

Jun 19 #Python

通过实例解析python创建进程常用方法

Jun 19 #Python

keras model.fit 解决validation_spilt=num 的问题

Jun 19 #Python

为什么是 Python -m

Jun 19 #Python

Python 私有属性和私有方法应用场景分析

Jun 19 #Python

Python基于network模块制作电影人物关系图

Jun 19 #Python

keras中的History对象用法

Jun 19 #Python

You might like

PHP.MVC的模板标签系统(一)

2006/09/05 PHP

PHP 命令行参数详解及应用

2011/05/18 PHP

php面向对象程序设计入门教程

2019/06/22 PHP

解决PHP Opcache 缓存刷新、代码重载出现无法更新代码的问题

2020/08/24 PHP

jquery中输入验证中一个不错的效果

2010/08/21 Javascript

Javascript数组的排序 sort()方法和reverse()方法

2012/06/04 Javascript

解决JS中乘法的浮点错误的方法

2014/01/03 Javascript

javascript event在FF和IE的兼容传参心得(绝对好用)

2014/07/10 Javascript

兼容Firefox的Javascript XSLT 处理XML文件

2014/12/31 Javascript

jQuery选择器源码解读（八）：addCombinator函数

2015/03/31 Javascript

全面了解JavaScirpt 的垃圾(garbage collection)回收机制

2016/07/11 Javascript

jQuery实现下拉框多选 jquery-multiselect 的实例代码

2016/07/14 Javascript

详解JS中定时器setInterval和setTImeout的this指向问题

2017/01/06 Javascript

angularJs中orderBy筛选以及filter过滤数据的方法

2018/09/30 Javascript

js实现多个倒计时并行 js拼团倒计时

2019/02/25 Javascript

解决vue打包后刷新页面报错：Unexpected token

2019/08/27 Javascript

解决vue的router组件component在import时不能使用变量问题

2020/07/26 Javascript

原生JavaScript实现随机点名表

2021/01/14 Javascript

[01:46]辉夜杯—打造中国DOTA新格局

2015/12/25 DOTA

Python 爬虫图片简单实现

2017/06/01 Python

python数据结构之链表的实例讲解

2017/07/25 Python

pycharm+django创建一个搜索网页实例代码

2018/01/24 Python

python设置值及NaN值处理方法

2018/07/03 Python

TensorFlow实现打印每一层的输出

2020/01/21 Python

Python实现疫情通定时自动填写功能(附代码)

2020/05/27 Python

深入了解Python装饰器的高级用法

2020/08/13 Python

Pycharm自带Git实现版本管理的方法步骤

2020/09/18 Python

Python创建自己的加密货币的示例

2021/03/01 Python

css3 iphone玻璃透明气泡完美实现

2013/03/20 HTML / CSS

CSS3之2D与3D变换的实现方法

2019/01/28 HTML / CSS

2014年征兵标语

2014/06/20 职场文书

党委干部批评与自我批评发言稿

2014/09/28 职场文书

关于随地扔垃圾的检讨书

2014/09/30 职场文书

中学生旷课检讨书2篇

2014/10/09 职场文书

教师网络培训心得体会

2016/01/09 职场文书

iPhone13再次曝光

2021/04/15 数码科技