编程 Python

Pytorch 中的optimizer使用说明

Posted in Python onMarch 03, 2021

与优化函数相关的部分在torch.optim模块中，其中包含了大部分现在已有的流行的优化方法。

如何使用Optimizer

要想使用optimizer，需要创建一个optimizer 对象，这个对象会保存当前状态，并根据梯度更新参数。

怎样构造Optimizer

要构造一个Optimizer，需要使用一个用来包含所有参数（Tensor形式）的iterable，把相关参数（如learning rate、weight decay等）装进去。

注意，如果想要使用.cuda()方法来将model移到GPU中，一定要确保这一步在构造Optimizer之前。因为调用.cuda()之后，model里面的参数已经不是之前的参数了。

示例代码如下：

optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum = 0.9)
optimizer = optim.Adam([var1, var2], lr = 0.0001)

常用参数

last_epoch代表上一次的epoch的值，初始值为-1。

单独指定参数

也可以用一个dict的iterable指定参数。这里的每个dict都必须要params这个key，params包含它所属的参数列表。除此之外的key必须它的Optimizer（如SGD）里面有的参数。

You can still pass options as keyword arguments. They will be used as defaults, in the groups that didn't override them. This is useful when you only want to vary a single option, while keeping all others consistent between parameter groups.

这在针对特定部分进行操作时很有用。比如只希望给指定的几个层单独设置学习率：

optim.SGD([
  {'params': model.base.parameters()},
  {'params': model.classifier.parameters(), 'lr': 0.001}
  ],
  
  lr = 0.01, momentum = 0.9)

在上面这段代码中model.base将会使用默认学习率0.01，而model.classifier的参数蒋欢使用0.001的学习率。

怎样进行单次优化

所有optimizer都实现了step()方法，调用这个方法可以更新参数，这个方法有以下两种使用方法：

optimizer.step()

多数optimizer里都可以这么做，每次用backward()这类的方法计算出了梯度后，就可以调用一次这个方法来更新参数。

示例程序：

for input, target in dataset:
 optimizer.zero_grad()
 ouput = model(input)
 loss = loss_fn(output, target)
 loss.backward()
 optimizer.step()

optimizer.step(closure)

有些优化算法会多次重新计算函数（比如Conjugate Gradient、LBFGS），这样的话你就要使用一个闭包（closure）来支持多次计算model的操作。

这个closure的运行过程是，清除梯度，计算loss，返回loss。

（这个我不太理解，因为这些优化算法不熟悉）

示例程序：

for input, target in dataset:
  def closure():
    optimizer.zero_grad()
    output = model(input)
    loss = loss_fn(output, target)
    loss.backward()
    return loss
  optimizer.step(closure)

优化算法

这里就不完整介绍documentation中的内容了，只介绍基类。具体的算法的参数需要理解它们的原理才能明白，这个改天单独来一篇文章介绍。

Optimizer

class torch.optim.Optimizer(params, defaults)

这是所有optimizer的基类。

注意，各参数的顺序必须保证每次运行都一致。有些数据结构就不满足这个条件，比如dictionary的iterator和set。

参数

params(iterable)是torch.Tensor或者dict的iterable。这个参数指定了需要更新的Tensor。

defaults(dict)是一个dict，它包含了默认的的优化选项。

方法

add_param_group(param_group)

这个方法的作用是增加一个参数组，在fine tuning一个预训练的网络时有用。

load_state_dict(state_dict)

这个方法的作用是加载optimizer的状态。

state_dict()

获取一个optimizer的状态（一个dict）。

zero_grad()方法用于清空梯度。

step(closure)用于进行单次更新。

Adam

class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)

补充：pytorch里面的Optimizer和optimizer.step()用法

当我们想指定每一层的学习率时：

optim.SGD([
          {'params': model.base.parameters()},
          {'params': model.classifier.parameters(), 'lr': 1e-3}
        ], lr=1e-2, momentum=0.9)

这意味着model.base的参数将会使用1e-2的学习率，model.classifier的参数将会使用1e-3的学习率，并且0.9的momentum将会被用于所有的参数。

进行单次优化

所有的optimizer都实现了step()方法，这个方法会更新所有的参数。它能按两种方式来使用：

optimizer.step()

这是大多数optimizer所支持的简化版本。一旦梯度被如backward()之类的函数计算好后，我们就可以调用这个函数。

例子

for input, target in dataset:
    optimizer.zero_grad()
    output = model(input)
    loss = loss_fn(output, target)
    loss.backward()
    optimizer.step()
optimizer.step(closure)

一些优化算法例如Conjugate Gradient和LBFGS需要重复多次计算函数，因此你需要传入一个闭包去允许它们重新计算你的模型。

这个闭包应当清空梯度，计算损失，然后返回。

例子：

for input, target in dataset:
  def closure():
    optimizer.zero_grad()
    output = model(input)
    loss = loss_fn(output, target)
    loss.backward()
    return loss
  optimizer.step(closure)

以上为个人经验，希望能给大家一个参考，也希望大家多多支持三水点靠木。如有错误或未考虑完全的地方，望不吝赐教。

Pytorch 中的optimizer使用说明

- Author -

gdymind

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现子类调用父类的方法

Nov 10 Python

初步认识Python中的列表与位运算符

Oct 12 Python

Python算法应用实战之队列详解

Feb 04 Python

Python新手入门最容易犯的错误总结

Apr 24 Python

对numpy中布尔型数组的处理方法详解

Apr 17 Python

Python实现的简单计算器功能详解

Aug 25 Python

Python Threading 线程/互斥锁/死锁/GIL锁

Jul 21 Python

Python实现微信翻译机器人的方法

Aug 13 Python

python解析xml文件方式(解析、更新、写入)

Mar 05 Python

tensorflow模型的save与restore,及checkpoint中读取变量方式

May 26 Python

Python 多进程、多线程效率对比

Nov 19 Python

Python机器学习工具scikit-learn的使用笔记

Jan 28 Python

解决pytorch 的state_dict()拷贝问题

Mar 03 #Python

解决pytorch 保存模型遇到的问题

Mar 03 #Python

解决pytorch 模型复制的一些问题

Mar 03 #Python

Pytorch模型迁移和迁移学习,导入部分模型参数的操作

Mar 03 #Python

pytorch 实现L2和L1正则化regularization的操作

Mar 03 #Python

Pytorch自定义Dataset和DataLoader去除不存在和空数据的操作

Mar 03 #Python

python爬取youtube视频的示例代码

Mar 03 #Python

You might like

PHPMailer 中文使用说明小结

2010/01/22 PHP

PHP 可阅读随机字符串代码

2010/05/26 PHP

thinkphp ajaxfileupload实现异步上传图片的示例

2017/08/28 PHP

php通过各种函数判断0和空

2020/07/04 PHP

基于ThinkPHP删除目录及目录文件函数

2020/10/28 PHP

PHP基于ip2long实现IP转换整形

2020/12/11 PHP

关于JavaScript的gzip静态压缩方法

2007/01/05 Javascript

javascript 带有滚动条的表格,标题固定,带排序功能.

2009/11/13 Javascript

JavaScript验证图片类型(扩展名)的函数分享

2014/05/05 Javascript

Bootstrap弹出带合法性检查的登录框实例代码【推荐】

2016/06/23 Javascript

PHP捕捉异常中断的方法

2016/10/24 Javascript

vue.js实现表格合并示例代码

2016/11/30 Javascript

jQuery排序插件tableSorter使用方法

2017/02/10 Javascript

jQuery EasyUI 选项卡面板tabs的使用实例讲解

2017/12/25 jQuery

基于three.js编写的一个项目类示例代码

2018/01/05 Javascript

如何使node也支持从url加载一个module详解

2018/06/05 Javascript

JavaScript 扩展运算符用法实例小结【基于ES6】

2019/06/17 Javascript

Vue登录拦截登录后继续跳转指定页面的操作

2020/08/04 Javascript

Python访问纯真IP数据库脚本分享

2015/06/29 Python

python实现用户登陆邮件通知的方法

2015/07/09 Python

Python3.5实现的罗马数字转换成整数功能示例

2019/02/25 Python

如何使用PyCharm将代码上传到GitHub上(图文详解)

2020/04/27 Python

Python PyQt5运行程序把输出信息展示到GUI图形界面上

2020/04/27 Python

django美化后台django-suit的安装配置操作

2020/07/12 Python

CSS3 绘制BMW logo实的现代码

2013/04/25 HTML / CSS

档案接收函

2014/01/13 职场文书

施工安全责任书

2014/04/14 职场文书

羽毛球比赛策划方案

2014/06/13 职场文书

初中优秀学生评语

2014/12/29 职场文书

2015财务年度工作总结范文

2015/05/04 职场文书

导游词之青城山景区

2019/09/27 职场文书

css实现文章分割线样式的多种方法总结

2021/04/21 HTML / CSS

使用Pytorch实现two-head(多输出)模型的操作

2021/05/28 Python

Go timer如何调度

2021/06/09 Golang

Python list列表删除元素的4种方法

2021/11/01 Python

聊聊CSS粘性定位sticky案例解析

2022/06/01 HTML / CSS