编程 Python

pytorch实现加载保存查看checkpoint文件

Posted in Python onJuly 15, 2022

1.保存加载checkpoint文件

# 方式一：保存加载整个state_dict（推荐）
# 保存
torch.save(model.state_dict(), PATH)
# 加载
model.load_state_dict(torch.load(PATH))
# 测试时不启用 BatchNormalization 和 Dropout
model.eval()

# 方式二：保存加载整个模型
# 保存
torch.save(model, PATH)
# 加载
model = torch.load(PATH)
model.eval()

# 方式三：保存用于继续训练的checkpoint或者多个模型
# 保存
torch.save({
            'epoch': epoch,
            'model_state_dict': model.state_dict(),
            ...
            }, PATH)
# 加载
checkpoint = torch.load(PATH)
start_epoch=checkpoint['epoch']
model.load_state_dict(checkpoint['model_state_dict'])
# 测试时
model.eval()
# 或者训练时
model.train()

2.跨gpu和cpu

# GPU上保存，CPU上加载
# 保存
torch.save(model.state_dict(), PATH)
# 加载
device = torch.device('cpu')
model.load_state_dict(torch.load(PATH, map_location=device))
# 如果是多gpu保存，需要去除关键字中的module，见第4部分

# GPU上保存，GPU上加载
# 保存
torch.save(model.state_dict(), PATH)
# 加载
device = torch.device("cuda")
model.load_state_dict(torch.load(PATH))
model.to(device)

# CPU上保存，GPU上加载
# 保存
torch.save(model.state_dict(), PATH)
# 加载
device = torch.device("cuda")
# 选择希望使用的GPU
model.load_state_dict(torch.load(PATH, map_location="cuda:0"))  
model.to(device)

3.查看checkpoint文件内容

# 打印模型的 state_dict
print("Model's state_dict:")
for param_tensor in model.state_dict():
    print(param_tensor, "\t", model.state_dict()[param_tensor].size())

4.常见问题

多gpu

报错为KeyError: ‘unexpected key “module.conv1.weight” in state_dict’

原因：当使用多gpu时，会使用torch.nn.DataParallel，所以checkpoint中有module字样

#解决1：加载时将module去掉

# 创建一个不包含`module.`的新OrderedDict
from collections import OrderedDict
new_state_dict = OrderedDict()
for k, v in state_dict.items():
    name = k[7:] # 去掉 `module.`
    new_state_dict[name] = v
# 加载参数
model.load_state_dict(new_state_dict)

# 解决2：保存checkpoint时不保存module
torch.save(model.module.state_dict(), PATH)

pytorch保存和加载文件的方法,从断点处继续训练

'''本文件用于举例说明pytorch保存和加载文件的方法''' 
import torch as torch
import torchvision as tv
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import torchvision.transforms as transforms
import os
  
# 参数声明
batch_size = 32
epochs = 10
WORKERS = 0  # dataloder线程数
test_flag = False  # 测试标志，True时加载保存好的模型进行测试
ROOT = '/home/pxt/pytorch/cifar'  # MNIST数据集保存路径
log_dir = '/home/pxt/pytorch/logs/cifar_model.pth'  # 模型保存路径
# 加载MNIST数据集
transform = tv.transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])])
 
train_data = tv.datasets.CIFAR10(root=ROOT, train=True, download=True, transform=transform)
test_data = tv.datasets.CIFAR10(root=ROOT, train=False, download=False, transform=transform)
 
train_load = torch.utils.data.DataLoader(train_data, batch_size=batch_size, shuffle=True, num_workers=WORKERS)
test_load = torch.utils.data.DataLoader(test_data, batch_size=batch_size, shuffle=False, num_workers=WORKERS)
 
 
# 构造模型
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 64, 3, padding=1)
        self.conv2 = nn.Conv2d(64, 128, 3, padding=1)
        self.conv3 = nn.Conv2d(128, 256, 3, padding=1)
        self.conv4 = nn.Conv2d(256, 256, 3, padding=1)
        self.pool = nn.MaxPool2d(2, 2)
        self.fc1 = nn.Linear(256 * 8 * 8, 1024)
        self.fc2 = nn.Linear(1024, 256)
        self.fc3 = nn.Linear(256, 10)
 
    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = self.pool(F.relu(self.conv2(x)))
        x = F.relu(self.conv3(x))
        x = self.pool(F.relu(self.conv4(x)))
        x = x.view(-1, x.size()[1] * x.size()[2] * x.size()[3])
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x
  
model = Net().cpu()
 
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)
 
 
# 模型训练
def train(model, train_loader, epoch):
    model.train()
    train_loss = 0
    for i, data in enumerate(train_loader, 0):
        x, y = data
        x = x.cpu()
        y = y.cpu()
 
        optimizer.zero_grad()
        y_hat = model(x)
        loss = criterion(y_hat, y)
        loss.backward()
        optimizer.step()
        train_loss += loss
        print('正在进行第{}个epoch中的第{}次循环'.format(epoch,i))
 
    loss_mean = train_loss / (i + 1)
    print('Train Epoch: {}\t Loss: {:.6f}'.format(epoch, loss_mean.item()))
 
 
# 模型测试
def test(model, test_loader):
    model.eval()
    test_loss = 0
    correct = 0
    with torch.no_grad():
        for i, data in enumerate(test_loader, 0):
            x, y = data
            x = x.cpu()
            y = y.cpu()
 
            optimizer.zero_grad()
            y_hat = model(x)
            test_loss += criterion(y_hat, y).item()
            pred = y_hat.max(1, keepdim=True)[1]
            correct += pred.eq(y.view_as(pred)).sum().item()
        test_loss /= (i + 1)
        print('Test set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
            test_loss, correct, len(test_data), 100. * correct / len(test_data)))
  
def main():
    # 如果test_flag=True,则加载已保存的模型并进行测试，测试以后不进行此模块以后的步骤
    if test_flag:
        # 加载保存的模型直接进行测试机验证
        checkpoint = torch.load(log_dir)
        model.load_state_dict(checkpoint['model'])
        optimizer.load_state_dict(checkpoint['optimizer'])
        start_epoch = checkpoint['epoch']
        test(model, test_load)
        return
 
    # 如果有保存的模型，则加载模型，并在其基础上继续训练
    if os.path.exists(log_dir):
        checkpoint = torch.load(log_dir)
        model.load_state_dict(checkpoint['model'])
        optimizer.load_state_dict(checkpoint['optimizer'])
        start_epoch = checkpoint['epoch']
        print('加载 epoch {} 成功！'.format(start_epoch))
    else:
        start_epoch = 0
        print('无保存了的模型，将从头开始训练！')
 
    for epoch in range(start_epoch+1, epochs):
        train(model, train_load, epoch)
        test(model, test_load)
        # 保存模型
        state = {'model':model.state_dict(), 'optimizer':optimizer.state_dict(), 'epoch':epoch}
        torch.save(state, log_dir)
 
if __name__ == '__main__':
    main()

以上为个人经验，希望能给大家一个参考，也希望大家多多支持三水点靠木。

pytorch实现加载保存查看checkpoint文件

- Author -

joyce_peng

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python程序设计入门(1)基本语法简介

Jun 13 Python

将Python代码打包为jar软件的简单方法

Aug 04 Python

python实现字典(dict)和字符串(string)的相互转换方法

Mar 01 Python

Empty test suite.(PyCharm程序运行错误的解决方法)

Nov 30 Python

用Python读取几十万行文本数据

Dec 24 Python

Python 安装第三方库 pip install 安装慢安装不上的解决办法

Jun 18 Python

python 含子图的gif生成时内存溢出的方法

Jul 07 Python

简单了解python 生成器列表推导式生成器表达式

Aug 22 Python

python判断两个序列的成员是否一样的实例代码

Mar 01 Python

将不规则的Python多维数组拉平到一维的方法实现

Jan 11 Python

python实现学生信息管理系统源码

Feb 22 Python

Python数据可视化之绘制柱状图和条形图

May 25 Python

pytest实现多进程与多线程运行超好用的插件

Jul 15 #Python

python如何将mat文件转为png

Jul 15 #Python

python读取mat文件生成h5文件的实现

Jul 15 #Python

全网非常详细的pytest配置文件

Jul 15 #Python

Python如何加载模型并查看网络

Jul 15 #Python

Python绘制散点图之可视化神器pyecharts

Jul 07 #Python

Python可视化神器pyecharts之绘制箱形图

Jul 07 #Python

You might like

Yii2增删改查之查询 where参数详细介绍

2016/08/08 PHP

2016/09/22 PHP

利用PHP生成静态html页面的原理

2016/09/30 PHP

thinkPHP中session()方法用法详解

2016/12/08 PHP

Laravel中前端js上传图片到七牛云的示例代码

2017/09/04 PHP

PHP实现微信支付(jsapi支付)流程步骤详解

2018/03/15 PHP

PHP simplexml_load_file()函数讲解

2019/02/03 PHP

JS控制显示隐藏兼容问题(IE6、IE7、IE8)

2010/04/01 Javascript

js jquery验证银行卡号信息正则学习

2013/01/21 Javascript

js实现单行文本向上滚动效果实例代码

2013/11/28 Javascript

Node.js（安装，启动，测试）

2014/06/09 Javascript

详解Matlab中 sort 函数用法

2016/03/20 Javascript

JS实现的A*寻路算法详解

2018/12/14 Javascript

vue获取data数据改变前后的值方法

2019/11/07 Javascript

node静态服务器实现静态读取文件或文件夹

2019/12/03 Javascript

javascript实现简易数码时钟

2020/03/30 Javascript

[07:57]DOTA2热力大趴狂欢夜广州站活动回顾

2013/11/27 DOTA

[04:10]2018年度CS GO玩家最喜爱的主播-完美盛典

2018/12/16 DOTA

Python函数参数类型*、**的区别

2015/04/11 Python

python比较两个列表是否相等的方法

2015/07/28 Python

Python批量查询域名是否被注册过

2017/06/21 Python

利用python批量修改word文件名的方法示例

2017/10/17 Python

Anaconda 离线安装 python 包的操作方法

2018/06/11 Python

Python3批量生成带logo的二维码方法

2019/06/24 Python

pandas条件组合筛选和按范围筛选的示例代码

2019/08/26 Python

基于python实现生成指定大小txt文档

2020/07/20 Python

抽象方法、抽象类怎样声明

2014/10/25 面试题

static函数与普通函数有什么区别

2015/12/25 面试题

政法大学毕业生自荐信范文

2014/01/01 职场文书

优秀安全员事迹材料

2014/05/11 职场文书

2014年冬季防火方案

2014/05/21 职场文书

森林病虫害防治方案

2014/06/02 职场文书

关于社会实践的心得体会（2016最新版）

2016/01/25 职场文书

Java实现斗地主之洗牌发牌

2021/06/14 Java/Android

MySQL的Query Cache图文详解

2021/07/01 MySQL

【海涛解说】史上最给力比赛，挑战DOTA极限

2022/04/01 DOTA

pytorch实现加载保存查看checkpoint文件

目录

1.保存加载checkpoint文件

2.跨gpu和cpu

3.查看checkpoint文件内容

4.常见问题

pytorch保存和加载文件的方法,从断点处继续训练