【深度学习】读写文件

读写文件

到目前为止,我们讨论了如何处理数据,以及如何构建、训练和测试深度学习模型。
然而,有时我们希望保存训练的模型,以备将来在各种环境中使用(比如在部署中进行预测)。
此外,当运行一个耗时较长的训练过程时,最佳的做法是定期保存中间结果,以确保在服务器电源被不小心断掉时,我们不会损失几天的计算结果。

因此,现在是时候学习如何加载和存储权重向量和整个模型了。

(加载和保存张量)

对于单个张量,我们可以直接调用loadsave函数分别读写它们。
这两个函数都要求我们提供一个名称,save要求将要保存的变量作为输入。

import torch
from torch import nn
from torch.nn import functional as F# 创建一个包含从 0 到 3 的整数的一维张量
x = torch.arange(4)
# 将张量 x 保存到名为 'x-file' 的文件中
torch.save(x, 'x-file')

通常 x-file的文件格式一般是.pt 或者 .pth ,用于保存 PyTorch 模型的状态字典(state_dict)或者整个模型对象。

我们现在可以将存储在文件中的数据读回内存。

# 从名为 'x-file' 的文件中加载之前保存的张量,并将其赋值给变量 x2
x2 = torch.load('x-file')
# 打印加载得到的张量 x2
x2
tensor([0, 1, 2, 3])

我们可以[存储一个张量列表,然后把它们读回内存。]

# 创建一个包含 4 个零的一维张量
y = torch.zeros(4)
# 将张量 x 和 y 组成一个列表,并保存到名为 'x-files' 的文件中
torch.save([x, y], 'x-files')
# 从 'x-files' 文件中加载保存的张量,并将它们分别赋值给 x2 和 y2
x2, y2 = torch.load('x-files')
# 打印加载得到的张量元组 (x2, y2)
(x2, y2)
(tensor([0, 1, 2, 3]), tensor([0., 0., 0., 0.]))

我们甚至可以(写入或读取从字符串映射到张量的字典)。当我们要读取或写入模型中的所有权重时,这很方便。

mydict = {'x': x, 'y': y}
torch.save(mydict, 'mydict')
mydict2 = torch.load('mydict')
mydict2
{'x': tensor([0, 1, 2, 3]), 'y': tensor([0., 0., 0., 0.])}

[加载和保存模型参数]

保存单个权重向量(或其他张量)确实有用,但是如果我们想保存整个模型,并在以后加载它们,单独保存每个向量则会变得很麻烦。
毕竟,我们可能有数百个参数散布在各处。因此,深度学习框架提供了内置函数来保存和加载整个网络。需要注意的一个重要细节是,这将保存模型的参数而不是保存整个模型
例如,如果我们有一个3层多层感知机,我们需要单独指定架构。因为模型本身可以包含任意代码,所以模型本身难以序列化。因此,为了恢复模型,我们需要用代码生成架构,然后从磁盘加载参数。
让我们从熟悉的多层感知机开始尝试一下。

import torch
import torch.nn as nn
import torch.nn.functional as Fclass MLP(nn.Module):"""定义一个多层感知机(MLP)模型,继承自 nn.Module。该模型包含一个隐藏层和一个输出层。"""def __init__(self):"""初始化 MLP 模型的各层。"""# 调用父类 nn.Module 的构造函数super().__init__()# 定义隐藏层,输入维度为 20,输出维度为 256self.hidden = nn.Linear(20, 256)# 定义输出层,输入维度为 256,输出维度为 10self.output = nn.Linear(256, 10)def forward(self, x):"""定义模型的前向传播过程。参数:x (torch.Tensor): 输入张量。返回:torch.Tensor: 模型的输出张量。"""# 对隐藏层的输出应用 ReLU 激活函数hidden_output = F.relu(self.hidden(x))# 通过输出层得到最终输出return self.output(hidden_output)# 创建 MLP 模型的实例
net = MLP()
# 生成一个形状为 (2, 20) 的随机输入张量
X = torch.randn(size=(2, 20))
# 将输入张量传入模型进行前向传播,得到输出
Y = net(X)

接下来,我们[将模型的参数存储在一个叫做“mlp.params”的文件中。]

torch.save(net.state_dict(), 'mlp.params')

为了恢复模型,我们[实例化了原始多层感知机模型的一个备份。]
这里我们不需要随机初始化模型参数,而是(直接读取文件中存储的参数。)

# 创建一个新的 MLP 模型实例,用于加载预训练的参数
clone = MLP()
# 从 'mlp.params' 文件中加载保存的模型参数状态字典,并将其加载到 clone 模型中
clone.load_state_dict(torch.load('mlp.params'))
# 将模型设置为评估模式,这会影响一些特定层(如 Dropout、BatchNorm)的行为,确保在推理时使用正确的参数
clone.eval()

load_state_dict 方法可以将一个保存好的状态字典加载到当前的模型实例中,从而实现模型参数的恢复或迁移。状态字典是一个 Python 字典对象,它包含了模型中所有可学习参数(如权重和偏置)的张量。

clone = MLP()
clone.load_state_dict(torch.load('mlp.params'))
clone.eval()

由于两个实例具有相同的模型参数,在输入相同的X时,两个实例的计算结果应该相同。让我们来验证一下。

Y_clone = clone(X)
Y_clone == Y
tensor([[True, True, True, True, True, True, True, True, True, True],[True, True, True, True, True, True, True, True, True, True]])

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/73121.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

仿Manus一

复制 ┌───────────────┐ ┌─────────────┐ │ 主界面UI │◄─────►│ 会话管理模块 │ └───────┬───────┘ └──────┬──────┘│ │▼ ▼ ┌─…

VS Code C++ 开发环境配置

VS Code 是当前非常流行的开发工具. 本文讲述如何配置 VS Code 作为 C开发环境. 本文将按照如下步骤来介绍如何配置 VS Code 作为 C开发环境. 安装编译器安装插件配置工作区 第一个步骤的具体操作会因为系统不同或者方案不同而有不同的选择. 环境要求 首先需要立即 VS Code…

Flutter 学习之旅 之 flutter 不使用插件,实现简单带加载动画的 LoadingToast 功能

Flutter 学习之旅 之 flutter 不使用插件,实现简单带加载动画的 LoadingToast 功能 目录 Flutter 学习之旅 之 flutter 不使用插件,实现简单带加载动画的 LoadingToast 功能 一、简单介绍 二、LoadingToast 三、简单案例实现 四、关键代码 一、简单…

Spring (八)AOP-切面编程的使用

目录 实现步骤&#xff1a; 1 导入AOP依赖 2 编写切面Aspect 3 编写通知方法 4 指定切入点表达式 5 测试AOP动态织入 图示&#xff1a; 一 实现步骤&#xff1a; 1 导入AOP依赖 <!-- Spring Boot AOP依赖 --><dependency><groupId>org.springframewor…

开源数字人模型Heygem

一、Heygem是什么 Heygem 是硅基智能推出的开源数字人模型&#xff0c;专为 Windows 系统设计。基于先进的AI技术&#xff0c;仅需1秒视频或1张照片&#xff0c;能在30秒内完成数字人形象和声音克隆&#xff0c;在60秒内合成4K超高清视频。Heygem支持多语言输出、多表情动作&a…

uniapp开通开屏广告后动态开启或关闭开屏广告

近期使用uniapp开发的APP有uniad的广告对接&#xff0c;并且要求会员用户不显示包含开屏广告在内的广告&#xff0c;除开屏广告外的广告都可以通过uniapp广告组件控制是否显示 因uniad的开屏广告无需代码开发&#xff0c;经过uniad客服指点可在App.vue中的onLaunch生命周期中执…

神经网络为什么要用 ReLU 增加非线性?

在神经网络中使用 ReLU&#xff08;Rectified Linear Unit&#xff09; 作为激活函数的主要目的是引入非线性&#xff0c;这是神经网络能够学习复杂模式和解决非线性问题的关键。 1. 为什么需要非线性&#xff1f; 1.1 线性模型的局限性 如果神经网络只使用线性激活函数&…

使用SSH密钥连接本地git 和 github

目录 配置本地SSH&#xff0c;添加到github首先查看本地是否有SSH密钥生成SSH密钥&#xff0c;和邮箱绑定将 SSH 密钥添加到 ssh-agent&#xff1a;显示本地公钥*把下面这一串生成的公钥存到github上* 验证SSH配置是否成功终端跳转到本地仓库把http协议改为SSH&#xff08;如果…

关于AI数据分析可行性的初步评估

一、结论&#xff1a;可在部分环节嵌入&#xff0c;无法直接处理大量数据 1.非本地部署的AI应用处理非机密文件没问题&#xff0c;内部文件要注意数据安全风险。 2.AI&#xff08;指高规格大模型&#xff09;十分适合探索性研究分析&#xff0c;对复杂报告无法全流程执行&…

矩阵分析-浅要理解(深度学习方向)

梯度分析与最优化 在深度学习的任务中&#xff0c;我们所期望的是训练一个神经网络&#xff0c;使得预测结果与真实标签之间的误差最小化&#xff0c;这可以近似看作是一个提供梯度下降等优化找到全局最优解的凸优化问题。 奇异值分解 在信息工程领域&#xff0c;对数据处理的…

使用DeepSeek+蓝耘快速设计网页简易版《我的世界》小游戏

前言&#xff1a;如今&#xff0c;借助先进的人工智能模型与便捷的云平台&#xff0c;即便是新手开发者&#xff0c;也能开启创意游戏的设计之旅。DeepSeek 作为前沿的人工智能模型&#xff0c;具备强大的功能与潜力&#xff0c;而蓝耘智算云平台则为其提供了稳定高效的运行环境…

固定表头、首列 —— uniapp、vue 项目

项目实地&#xff1a;也可以在 【微信小程序】搜索体验&#xff1a;xny.handbook 另一个体验项目&#xff1a;官网 一、效果展示 二、代码展示 &#xff08;1&#xff09;html 部分 <view class"table"><view class"tr"><view class&quo…

【学习笔记】Numpy和Tensor的区别

1. NumPy 和 PyTorch Tensor 的格式对比 NumPy 使用的是 numpy.ndarray&#xff0c;而 PyTorch 使用的是 torch.Tensor&#xff0c;两者的格式在数据存储和计算方式上有所不同。 NumPy (numpy.ndarray) import numpy as np array np.array([[1.0, 2.0, 3.0], [4.0, 5.0, 6.…

每天一道算法题【蓝桥杯】【在排序数组中查找元素的第一个位置和最后一个位置】

思路 本题为查找左边界和右边界的标准模型 查找左边界 int left 0, right nums.size() - 1, mid 0; //查找左边界 while (left < right) { mid left (right - left) / 2; if (nums[mid] < target) left mid 1; else right mid; } 查找右边界 int left 0, r…

Python数据分析之机器学习基础

Python 数据分析重点知识点 本系列不同其他的知识点讲解&#xff0c;力求通过例子让新同学学习用法&#xff0c;帮助老同学快速回忆知识点 可视化系列&#xff1a; Python基础数据分析工具数据处理与分析数据可视化机器学习基础 五、机器学习基础 了解机器学习概念、分类及…

我与DeepSeek读《大型网站技术架构》(10)- 维基百科的高性能架构设计分析

目录 网站整体架构核心组件请求处理流程图关键环节说明 性能优化策略前端优化&#xff1a;拦截 80% 以上请求服务端优化&#xff1a;高性能 PHP 集群后端优化&#xff1a;存储与缓存极致设计Memcached 持久化连接 性能优化策略对比表 网站整体架构 核心组件 Wikipedia 的架构…

Excel多级联动下拉菜单设置

1.问题描述 现有数据表如下图所示&#xff1a; 该表中包括省、市、县三级目录。 现要将其整理成数据表模板&#xff0c;如下图所示&#xff1a; 要求制作成下拉菜单的形式&#xff0c;且每一级目录的下拉菜单列表要根据上一级目录的内容来确定。 如上图所示&#xff0c;只有…

智驾技术全链条解析

智驾技术全链条解析&#xff08;2025年最新版&#xff09; 智驾技术涵盖从环境感知到车辆控制的完整闭环&#xff0c;涉及硬件、算法、数据与系统集成等多个领域。以下结合行业最新进展&#xff08;截至2025年3月&#xff09;进行深度拆解&#xff1a; 一、感知技术&#xff1…

SpringMVC执行的流程

SpringMVC 基于 MVC 架构模式&#xff0c;核心流程时前端控制室 DispathcherServlet 统一调度&#xff0c;通过组件协作完成 http 的请求与响应。 对于 dispatchServlet 作为前端请求的控制器&#xff0c;全局的访问点&#xff0c;首先将根据 URL 调用 HandlerMapping 获取 Han…

Linux学习(十五)(故障排除(ICMP,Ping,Traceroute,网络统计,数据包分析))

故障排除是任何 Linux 用户或管理员的基本技能。这涉及识别和解决 Linux 系统中的问题。这些问题的范围包括常见的系统错误、硬件或软件问题、网络连接问题以及系统资源的管理。Linux 中的故障排除过程通常涉及使用命令行工具、检查系统和应用程序日志文件、了解系统进程&#…