损失曲线(loss surface)的个人理解

作为损失曲线的笔记用于创新点的查找与查找与查找。

原文来自:Online-LoRA: Task-free Online Continual Learning via Low Rank Adaptation
这个方法似乎不是该论文首次提出的,但是我是通过该论文总结的。

一句话来说,这里的损失曲线就是通过训练时得到的损失值判断任务边界,以此来将依赖任务边界的算法运用到任务无关场景。

一.理论依据

关于loss surface的直觉:

  • loss 持续下降:说明模型还能从当前分布的样本里学到东西;
  • loss 上升/出现峰值(peak):往往意味着数据分布发生变化,当前参数不再适配;

论文假设 “模型会在分布再次变化前先收敛”,因此在学完一个稳定分布后,loss 会进入平稳平台(plateau),这类平稳平台就被当作“适合巩固知识、开启下一阶段适配”的时刻。

以下是论文中附带的F i g u r e .1. ( c ) Figure.1.(c)Figure.1.(c):

从图中我们可以很容易地看出来,当任务切换时,确实会出现非常明显地损失上升过程。

二.代码实现

为了便于介绍代码中的任务边界的判断逻辑,以下的代码会删除部分与原论文中参数重要性判断等逻辑。

1. 损失窗口数据结构

# 存储最近的损失值(滑动窗口)loss_window=[]# 存储历史统计信息(用于可视化/调试)loss_window_means=[]# 存储窗口均值loss_window_variances=[]# 存储窗口方差last_loss_window_mean=[]# 存储上一个窗口均值last_loss_window_variance=[]# 存储上一个窗口方差# 峰值检测标志new_peak_detected=True# 初始为 True,表示已检测到峰值

论文中通过滑动窗口来存储最近的损失值,用于后续计算均值与方差,然后通过设置均值与方差的阈值,来判断当前批次是旧任务还是新任务的批次。
new_peak_detected 是用来标记是否检测到新峰值的,置为True的目的会在接下来的步骤中说明。

2.损失收集与窗口更新

# 在每次训练迭代后收集损失train_loss=total_loss.detach().cpu().numpy()# 当前批次的损失loss_window.append(np.mean(train_loss))# 添加到窗口# 保持窗口大小固定(滑动窗口)iflen(loss_window)>args.loss_window_length:delloss_window[0]# 移除最老的损失值# 计算窗口统计量loss_window_mean=np.mean(loss_window)loss_window_variance=np.var(loss_window)print('loss window mean: {0:0.3f}, loss window variance: {1:0.3f}'.format(loss_window_mean,loss_window_variance))

train_loss 存储的是每个 batch 的样本损失,再通过均值计算后得到”当前 batch 内的平均样本损失“,存储进入 loss_window。
loss_window_mean 与 loss_window_variance 计算的都是当前窗口的均值与方差。

3.峰值检测

# --- 峰值检测逻辑 ---ifnotnew_peak_detectedandloss_window_mean>last_loss_window_mean+np.sqrt(last_loss_window_variance):new_peak_detected=True# 检测到峰值!print("PEAK DETECTED: Data distribution shift detected!")

这里的认定峰值的逻辑是:

  • 未检测到峰值
  • 当前窗口的均值大于上一次窗口的均值加上一个标准差

两者均符合时,就会标记为峰值。

4.平台期检测

# --- 平台期检测逻辑 ---if(loss_window_mean<args.loss_window_mean_thresholdandloss_window_variance<args.loss_window_variance_thresholdandnew_peak_detected):count_updates+=1print('IMPORTANT: Loss plateau detected! Triggering knowledge consolidation...')# 记录当前平台期的统计量last_loss_window_mean=loss_window_mean last_loss_window_variance=loss_window_variance# 重置峰值标志(准备检测下一个峰值)new_peak_detected=False

这里的认定平台期的逻辑是:

  • 检测到峰值
  • 当前窗口的均值小于均值的阈值
  • 当前窗口的方差小于方差的阈值

此时,检测到平台期,峰值标志会被重置,在原论文中,会在平台期进行LoRA参数的替换与参数重要性估计的更新,这里省略。

论文中提出的各数据集的阈值如下表所示:

阈值类型CIFAR-100ImageNet-RImageNet-SCORe50CUB-200
均值阈值2.65.25.66.024.0
方差阈值0.030.020.060.11.0

三.总结

目标:在无显式任务标识的在线持续学习场景中,通过监控训练损失曲线的变化,自动检测数据分布的切换时刻(任务边界),从而触发模型的“知识巩固”操作(如LoRA参数冻结与更新)。

理论基础:模型的损失曲线反映了其与当前数据分布的适配程度。

  • 损失下降/平稳:模型正在学习或已适应当前分布。
  • 损失陡升/出现峰值:数据分布很可能发生了切换,模型不再适应。
  • 关键假设:模型在面临新分布前,会先对旧分布达到收敛(即损失进入平台期)

核心流程

  • 滑动窗口监控:维护一个最近若干个批次的损失值窗口。
  • 实时统计:持续计算窗口内损失的均值与方差。
  • 两阶段检测
    • 峰值检测:当当前窗口均值 > 上一平台期均值 + 上一平台期标准差时,判定出现数据分布变化(任务切换)。
    • 平台期检测:当已检测到峰值当前窗口均值 < 均值阈值当前窗口方差 < 方差阈值时,判定模型已在新任务上达到初步收敛,进入适合进行知识巩固的平台期。此时触发关键操作(如更新重要参数、固化部分权重),并重置检测器,准备识别下一个任务

总的来说,该方法是一个将损失监控用于任务边界感知的低成本方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1165503.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于微服务SpringCloud+Vue的教材征订管理系统设计与实现

前言 &#x1f31e;博主介绍&#xff1a;✌CSDN特邀作者、全栈领域优质创作者、10年IT从业经验、码云/掘金/知乎/B站/华为云/阿里云等平台优质作者、专注于Java、小程序/APP、python、大数据等技术领域和毕业项目实战&#xff0c;以及程序定制化开发、文档编写、答疑辅导等。✌…

简单几步,用Live Avatar生成你的个性化数字人

简单几步&#xff0c;用Live Avatar生成你的个性化数字人 1. 快速入门&#xff1a;理解Live Avatar的核心能力与硬件要求 1.1 Live Avatar是什么&#xff1f; Live Avatar是由阿里联合多所高校开源的一款高保真数字人生成模型&#xff0c;基于14B参数规模的扩散视频大模型&a…

深度学习——卷积神经网络CNN

卷积神经网络CNN图像原理我们眼中的图像&#xff0c;在计算机世界里其实是一组有序排列的数字矩阵。对于黑白灰度图&#xff0c;每个像素的数值范围是 0-255&#xff0c;0 代表最暗的黑色&#xff0c;255 代表最亮的白色&#xff0c;整个图像就是一个二维矩阵。彩色图像则采用 …

【保姆级】一招教你彻底关闭Windows系统自动更新(近期Win11严重BUG,不要更新),禁止win11更新

谁没被 Windows 更新背刺过啊&#xff01;老电脑越更越卡还找不到回退按钮… 为啥系统更新这么招人烦&#xff1f; 不是反对更新&#xff0c;是这强制打扰的操作太离谱&#xff1a; ✅ 偷偷占地&#xff1a;后台悄悄下载几个 G 的安装包&#xff0c;C 盘空间莫名缩水&#…

django-flask基于python的观赏鱼养殖互助商城系统的设计与实现

目录摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;摘要 随着观赏鱼养殖行业的快速发展&#xff0c;养殖爱好者对专业化的信息交流与商品交易平台需求日益增长。基于Python的D…

我就纳闷了,岁数大了就这么不受人待见啦?然后有人说了,你就写写需求,用用框架,画画UI,复制粘贴,你只是用一年的经验工作了十年而已,一点价值都没有! 你这么大岁数,应该与时俱进,不断学习新技术,1或

我就纳闷了&#xff0c;岁数大了就这么不受人待见啦&#xff1f;然后有人说了&#xff0c;你就写写需求&#xff0c;用用框架&#xff0c;画画UI&#xff0c;复制粘贴&#xff0c;你只是用一年的经验工作了十年而已&#xff0c;一点价值都没有&#xff01; 你这么大岁数&#x…

告别“玩具”级开发:如何用向量引擎构建企业级 AI Agent 集群?(含 Python 异步并发实战)

万字详解&#xff1a;当 GPT-5.2 遇上 Veo3&#xff0c;全栈开发者如何利用“向量引擎”实现弯道超车&#xff1f; &#x1f680; 前言&#xff1a;AI 开发的“下半场”已经开始 如果说 2023 年是“聊天机器人&#xff08;Chatbot&#xff09;”的元年。 那么 2025 年&#x…

django-flask基于python的高中信息技术在线学习网站的设计与实现

目录摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;摘要 随着信息技术的快速发展&#xff0c;在线学习平台逐渐成为教育领域的重要组成部分。本研究基于Python语言&#xff0c…

元宇宙崩溃实录:缺乏AI压力测试引发的虚拟世界雪崩

—— 一份给软件测试从业者的技术警示录 一、灾难现场&#xff1a;虚拟世界的“切尔诺贝利时刻” &#xff08;模拟事故时间&#xff1a;元历2030年1月15日 16:04&#xff09; 当「寰宇互联」元宇宙平台迎来建网三周年庆典时&#xff0c;1200万用户涌入虚拟主城。16时04分&…

AI后端工程化:FastAPI + Pydantic + JWT 鉴权实战,从零构建 AI 接口服务

作者&#xff1a;飞哥&#xff08;一个喜欢讲故事的全栈开发者&#xff0c;擅长把复杂的代码翻译成“人话”&#xff09; 难度&#xff1a;⭐⭐⭐ 关键词&#xff1a;FastAPI, Async, Pydantic, JWT, 鉴权大家好&#xff0c;我是飞哥&#xff01;&#x1f44b; 在之前的课程里&…

短视频缺音效?2026年免费音效素材网站推荐榜单 自媒体/影视后期/游戏

一、引言&#xff1a;免费音效素材需求激增&#xff0c;品质与版权成关键痛点据中国音像与数字出版协会2025年《数字音效素材行业发展报告》显示&#xff0c;国内自媒体创作、影视后期制作、游戏开发等领域对免费音效素材的年需求量达48亿次&#xff0c;较上年增长51%。但行业调…

比如我现在左转没看到门左走,然后右转也没看到门后退,结果过了门了,最后一步奖励100,训练的时候会怎么修改神经网络 gru+ppo,还有离门就差一步结果跑出去绕了5步最后奖励20

我来详细解释一下在GRUPPO算法中&#xff0c;神经网络是如何根据这些情况进行训练和更新的。 PPO训练过程中的神经网络更新机制 1. 奖励信号传播 # 在 [GRUPPOAgent.update](file:///e%3A/code/my_python_server/sifu_control/ppo_networks.py#L576-714) 方法中&#xff1a;# 计…

扫描线算法

一.简介扫描线算法&#xff08;Sweep Line Algorithm&#xff09;是一种用于高效解决几何问题&#xff08;尤其是设计区间&#xff0c;矩形&#xff0c;线段等&#xff09;的经典算法思想。扫描线算法的核心思想是&#xff1a;用一条假象的线在平面上扫过整个图形&#xff0c;将…

ue5 设置分辨率笔记

3种方法&#xff1a; https://blog.csdn.net/weixin_52555766/article/details/134695226 测试没起作用。

[原创]基于CCO-ELM多输出回归+SHAP可解释性分析 Matlab代码(多输入多输出)

目录 1、代码简介 2、代码运行结果展示 3、代码获取 1、代码简介 (CCO-ELMSHAP)基于杜鹃鲶鱼算法优化极限学习机的数据多输入多输出SHAP可解释性分析的回归预测模型 1、在机器学习和深度学习领域&#xff0c;模型复杂度的不断攀升使得决策过程的可解释性成为研究热点。模型…

11. 命令缓冲区和DMA

1.命令缓冲区和DMA1.命令缓冲区和DMA 两者是"协作关系" —— CPU先把"数据上传指令"写入命令缓冲区, GPU执行指令时, 底层通过DMA完成实际的数据拷贝a.命令缓冲区- 本质: CPU写给GPU的"指令清单"(内存块)- 类比: 你填的"快递单"(写清楚…

【Java】万字解读Java的动态代理(JDK原生动态代理、CGLIB动态代理)_java 动态代理,零基础入门到精通,收藏这篇就够了

1. 前言 动态代理在Java中有着广泛的应用&#xff0c;比如 Spring AOP、RPC 远程调用、Java 注解对象获取、日志、用户鉴权、全局性异常处理、性能监控&#xff0c;甚至事务处理等。 下面我将着重的介绍两个常用的动态代理&#xff1a;JDK原生动态代理 和 CGLIB 动态代理。 …

[原创]基于CCO-LSSVM多输出回归+SHAP可解释性分析 Matlab代码(多输入多输出)

目录 1、代码简介 2、代码运行结果展示 3、代码获取 1、代码简介 (CCO-LSSVMSHAP)基于杜鹃鲶鱼算法优化最小二乘向量机的数据多输入多输出SHAP可解释性分析的回归预测模型 1、在机器学习和深度学习领域&#xff0c;模型复杂度的不断攀升使得决策过程的可解释性成为研究热点…

12. CPU → GPU数据上传 + 渲染指令执行流程

1.CPU → GPU数据上传 渲染指令执行流程 2.绑定GPU显存中的VBO/IBO说明1.CPU → GPU数据上传 渲染指令执行流程 以渲染一个3D对象为例, 全流程如下1).CPU准备阶段a.CPU在内存中整理好顶点数据、索引数据、常量缓冲区参数(比如 MVP 矩阵)b.CPU确定本次渲染的渲染状态(深度测试…

java中反射机制的应用场景,零基础入门到精通,收藏这篇就够了

1. 动态代理 动态代理是Java反射机制的一个重要应用场景。通过动态代理&#xff0c;可以在运行时创建代理类并处理方法调用。动态代理在Java中的主要应用场景是AOP&#xff08;面向切面编程&#xff09;&#xff0c;如事务管理、日志记录、权限控制等。 示例&#xff1a; im…