keras多显卡训练方式


Posted in Python onJune 10, 2020

使用keras进行训练,默认使用单显卡,即使设置了os.environ['CUDA_VISIBLE_DEVICES']为两张显卡,也只是占满了显存,再设置tf.GPUOptions(allow_growth=True)之后可以清楚看到,只占用了第一张显卡,第二张显卡完全没用。

要使用多张显卡,需要按如下步骤:

(1)import multi_gpu_model函数:from keras.utils import multi_gpu_model

(2)在定义好model之后,使用multi_gpu_model设置模型由几张显卡训练,如下:

model=Model(...) #定义模型结构
model_parallel=multi_gpu_model(model,gpu=n) #使用几张显卡n等于几
model_parallel.compile(...) #注意是model_parallel,不是model

通过以上代码,model将作为CPU上的原始模型,而model_parallel将作为拷贝模型被复制到各个GPU上进行梯度计算。如果batchsize为128,显卡n=2,则每张显卡单独计算128/2=64张图像,然后在CPU上将两张显卡计算得到的梯度进行融合更新,并对模型权重进行更新后再将新模型拷贝到GPU再次训练。

(3)从上面可以看出,进行训练时,仍然在model_parallel上进行:

model_parallel.fit(...) #注意是model_parallel

(4)保存模型时,model_parallel保存了训练时显卡数量的信息,所以如果直接保存model_parallel的话,只能将模型设置为相同数量的显卡调用,否则训练的模型将不能调用。因此,为了之后的调用方便,只保存CPU上的模型,即model:

model.save(...) #注意是model,不是model_parallel

如果用到了callback函数,则默认保存的也是model_parallel(因为训练函数是针对model_parallel的),所以要用回调函数保存model的话需要自己对回调函数进行定义:

class OwnCheckpoint(keras.callbacks.Callback):
 def __init__(self,model):
  self.model_to_save=model
 def on_epoch_end(self,epoch,logs=None): #这里logs必须写
  self.model_to_save.save('model_advanced/model_%d.h5' % epoch)

定以后具体使用如下:

checkpoint=OwnCheckpoint(model)
model_parallel.fit_generator(...,callbacks=[checkpoint])

这样就没问题了!

补充知识:keras.fit_generator及多卡训练记录

1.环境问题

使用keras,以tensorflow为背景,tensorflow1.14多卡训练会出错 python3.6

2.代码

2.1

os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ['CUDA_VISIBLE_DEVICES'] = '4,5'

2.2 自定义generator函数

def img_image_generator(path_img, path_lab, batch_size, data_list):
 while True:
 # 'train_list.csv'
 file_list = pd.read_csv(data_list, sep=',',usecols=[1]).values.tolist()
 file_list = [i[0] for i in file_list]
 cnt = 0
 X = []
 Y1 = []
 for file_i in file_list:
 x = cv2.imread(path_img+'/'+file_i, cv2.IMREAD_GRAYSCALE)
 x = x.astype('float32')
 x /= 255.
 y = cv2.imread(path_lab+'/'+file_i, cv2.IMREAD_GRAYSCALE)
 y = y.astype('float32')
 y /= 255.
 X.append(x.reshape(256, 256, 1))
 Y1.append(y.reshape(256, 256, 1))
 cnt += 1
 if cnt == batch_size:
 cnt = 0
 yield (np.array(X), [np.array(Y1), np.array(Y1)])
 X = []
 Y1 = []

2.3 函数调用及训练

generator_train = img_image_generator(path1, path2, 4, pathcsv_train)
 generator_test= img_image_generator(path1, path2, 4, pathcsv_test)
 model.fit_generator(generator_train, steps_per_epoch=237*2, epochs=50, callbacks=callbacks_list, validation_data=generator_test, validation_steps=60*2)

3. 多卡训练

3.1 复制model

model_parallel = multi_gpu_model(model, gpus=2)

3.2 checkpoint 定义

class ParallelModelCheckpoint(ModelCheckpoint):
  def __init__(self, model, filepath, monitor='val_out_final_score', verbose=0,\
   save_best_only=False, save_weights_only=False, mode='auto', period=1):
   self.single_model = model 
   super(ParallelModelCheckpoint, self).__init__(filepath, monitor, verbose, save_best_only, save_weights_only, mode, period)
  
  def set_model(self, model):
   super(ParallelModelCheckpoint, self).set_model(self.single_model)

使用

model_checkpoint = ParallelModelCheckpoint(model=model, filepath=filepath, monitor='val_loss',verbose=1, save_best_only=True, mode='min')

3.3 注意的问题

保存模型是时候需要使用以原来的模型保存,不能使用model_parallel保存

以上这篇keras多显卡训练方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中装饰器的一个妙用
Feb 08 Python
Python去除列表中重复元素的方法
Mar 20 Python
Python的shutil模块中文件的复制操作函数详解
Jul 05 Python
Python实现PS图像抽象画风效果的方法
Jan 23 Python
基于python神经卷积网络的人脸识别
May 24 Python
Python实现的从右到左字符串替换方法示例
Jul 06 Python
python 去除二维数组/二维列表中的重复行方法
Jan 23 Python
浅谈Python3中strip()、lstrip()、rstrip()用法详解
Apr 29 Python
Pytorch在NLP中的简单应用详解
Jan 08 Python
如何将PySpark导入Python的放实现(2种)
Apr 26 Python
python plt.plot bar 如何设置绘图尺寸大小
Jun 01 Python
Python并发编程实例教程之线程的玩法
Jun 20 Python
使用SQLAlchemy操作数据库表过程解析
Jun 10 #Python
keras 多gpu并行运行案例
Jun 10 #Python
Keras自定义IOU方式
Jun 10 #Python
Python实现在线批量美颜功能过程解析
Jun 10 #Python
浅谈keras中的目标函数和优化函数MSE用法
Jun 10 #Python
keras 解决加载lstm+crf模型出错的问题
Jun 10 #Python
使用Keras加载含有自定义层或函数的模型操作
Jun 10 #Python
You might like
解析:php调用MsSQL存储过程使用内置RETVAL获取过程中的return值
2013/07/03 PHP
memcache命令启动参数中文解释
2014/01/13 PHP
PHP中cookie和session的区别实例分析
2014/08/28 PHP
分享常见的几种页面静态化的方法
2015/01/08 PHP
使用PHP如何实现高效安全的ftp服务器(二)
2015/12/30 PHP
thinkphp5.1 文件引入路径问题及注意事项
2018/06/13 PHP
Yii框架 session 数据库存储操作方法示例
2019/11/18 PHP
来自qq的javascript面试题
2010/07/24 Javascript
javascript AOP 实现ajax回调函数使用比较方便
2010/11/20 Javascript
JavaScript基础函数整理汇总
2015/01/30 Javascript
简介JavaScript中Boolean.toSource()方法的使用
2015/06/05 Javascript
基于js实现微信发送好友如何分享到朋友圈、微博
2015/11/30 Javascript
jQuery中判断对象是否存在的方法汇总
2016/02/24 Javascript
JavaScript笔记之数据属性和存储器属性
2016/03/31 Javascript
纯js实现手风琴效果代码
2020/04/17 Javascript
jQuery基于Ajax方式提交表单功能示例
2017/02/10 Javascript
jQuery基于ajax实现页面加载后检查用户登录状态的方法
2017/02/10 Javascript
5 种JavaScript编码规范
2018/01/30 Javascript
深入理解js 中async 函数的含义和用法
2018/05/13 Javascript
layui获取选中行数据的实例讲解
2018/08/19 Javascript
详解webpack loader和plugin编写
2018/10/12 Javascript
vue 中使用 watch 出现了如下的报错的原因分析
2019/05/21 Javascript
ES6 Generator函数的应用实例分析
2019/06/26 Javascript
详解微信小程序支付流程与梳理
2019/07/16 Javascript
Python正则表达式指南 推荐
2018/10/09 Python
详解安装mitmproxy以及遇到的坑和简单用法
2019/01/21 Python
使用Python的SymPy库解决数学运算问题的方法
2019/03/27 Python
Python实现剪刀石头布小游戏(与电脑对战)
2019/12/31 Python
荷兰本土平价百货:HEMA
2017/10/23 全球购物
英国家喻户晓的家居商店:The Range
2019/03/25 全球购物
SQL语言面试题
2013/08/27 面试题
25道Java面试题集合
2013/05/21 面试题
消防安全汇报材料
2014/02/08 职场文书
竞选大队长演讲稿
2014/04/29 职场文书
法定代表人授权委托书范文
2014/09/22 职场文书
党支部鉴定意见
2015/06/02 职场文书