完整教程:Logit论文阅读

news/2025/10/16 18:10:09/文章来源:https://www.cnblogs.com/yxysuanfa/p/19146336

1.摘要

background

知识蒸馏(Knowledge Distillation, KD)旨在将一个大型“教师”模型的知识迁移到一个小型的“学生”模型中。传统方法通常使用一个基于共享“温度”(temperature)的softmax函数来软化教师和学生的输出,然后通过KL散度(Kullback-Leibler divergence)来最小化它们的差异。然而,这种共享温度的设定带来了一个副作用:它隐式地要求学生模型的logit(即softmax前的原始输出)在数值范围和方差上与教师模型进行精确匹配。考虑到学生模型和教师模型之间存在巨大的容量差异,让一个轻量级的学生模型去拟合重量级教师模型的logit数值是非常困难且不必要的,这反而限制了学生模型的性能。研究发现,学生真正需要学习的是教师logit之间的“内在关系”(例如,哪个类别的logit最高,次高,以及它们之间的相对差异),而非其绝对数值。

innovation

1.提出Logit标准化预处理:为了处理上述问题,论文提出了一个即插即用(plug-and-play)的Z-score logit标准化预处理步骤。该步骤在应用softmax和计算KL散度损失之前,对教师和学生的logits进行标准化。

2.解耦数值匹配,聚焦关系学习:这一创新的核心优势在于,它使得学生模型能够专注于学习教师logit中本质的“关系”知识,而无需强制匹配其数值大小。标准化后的学生logit可以拥有适合其自身模型容量的任意数值范围,同时保留从教师那里学到的关键关系。

3.提升现有办法性能:该预处理方法可以被无缝集成到现有的多种基于logit的蒸馏方法中,并显著提升它们的性能。与传统办法对比,该方法消除了学生模型的一个不必要的枷锁,释放了其学习潜力。

4.修正评估偏差:论文还通过一个典型案例说明,传统的共享温度设置有时会导致对学生性能的评估出现偏差(损失值小但预测错误),而Z-score标准化则能修正这个问题,使损失值能更真实地反映模型性能。

2. 方法 Method

总体 Pipeline:

论文的方式遵循“总-分”结构。最初,从理论上证明教师和学生的蒸馏温度无需共享;然后,指出现有共享温度方案的两个核心弊端;终于,提出Z-score logit标准化作为解决方案。

分步介绍:

1.证明温度的无关性 (Irrelevance between Temperatures):

做法:论文基于信息论中的“熵最大化原理”(entropy maximization principle),启用拉格朗日乘子法重新推导了softmax函数在知识蒸馏中的一般形式。

输入/输出:输入是知识蒸馏的优化目标。输出的结论是,温度参数本质上来源于拉格朗日乘子,没有理论依据要求教师和学生的温度必须相同,甚至也可以是样本级别(sample-wise)动态变化的。这为后续的设计提供了理论基础。

2.揭示共享温度的弊端 (Drawbacks of Shared Temperatures):

做法:通过数学推导(公式9-12),论文证明在共享温度的设定下,如果一个学生模型被完美蒸馏(即KL散度为0),那么必然会导致以下两个结果:

Logit Shift:学生的logit向量必须是教师logit向量的一个常数平移。

Variance Match:学生的logit向量必须和教师的logit向量具有完全相同的标准差。

输入/输出:输入是传统KD的共享温度假设。输出是结论:这种设定给学生强加了不必要的“数值拟合”任务,迫使其模仿教师的logit绝对值,而非仅仅学习其内在关系。

3.提出Logit标准化 (Logit Standardization):

做法:为了打破上述的“数值枷锁”,论文提出了一个加权的Z-score函数 Z(x; τ) = (x - mean(x)) / (std(x) / τ) 作为预处理步骤(见算法1和2)。在计算蒸馏损失之前,教师和学生的logit都先经过这个函数进行处理。

输入:教师的原始logit向量 vn 和学生的原始logit向量 zn。

输出:标准化后的logit向量 Z(vn; τ) 和 Z(zn; τ)。这些输出向量的均值为0,标准差由一个新的超参数“基准温度”(base temperature)τ 控制。这样一来,无论原始logit的数值范围和方差如何,标准化后的logit都处于一个统一的分布空间,使得KL散度损失只关注它们的相对关系。

3. 实验 Experimental Results

数据集:CIFAR-100 和 ImageNet。

主要实验结论:

1.普遍有效性 (Tables 1, 2, 3):

实验目的:验证该方式在不同模型架构和素材集上的普适性和有效性。

结论:在CIFAR-100和ImageNet上,将该Z-score预处理(在表格中用 "+Ours" 表示)应用于多种主流的基于logit的蒸馏办法(如KD, CTKD, DKD, MLKD)后,学生模型的性能都获得了一致且显著的提升。尤其值得注意的是,最基础的KD办法在加入该预处理后,性能甚至可以媲美一些更复杂的SOTA(state-of-the-art)办法。

2.消融研究 (Ablation Studies, Table 4):

实验目的:探究蒸馏损失的权重(λ_KD)对方法效果的影响。

结论:随着蒸馏损失权重的增加,使用了Z-score预处理的方法性能持续提升;而传统的KD方法在权重过高时性能反而会下降。这证明了传统办法中的“数值匹配”确实是一个瓶颈,而该方法通过消除这个瓶颈,使得学生能更充分地从教师的“暗知识”中受益。

3.扩展性分析 (Figs 3, 4, 5, Table 5):

实验目的:从logit范围/方差、特征可视化、大教师模型蒸馏等多个角度深入分析该方式的作用机理。

结论:

Logit范围和方差:实验可视化地证明了该方法成功解耦了学生原始logit的方差与教师的方差,同时确保了标准化后的logit方差一致,从而验证了其核心机理。

特征可视化:t-SNE可视化结果显示,使用该途径后,学生模型学习到的特征具有更好的可分离性和判别力。

大教师模型蒸馏:该方法有效缓解了“大模型教师不一定教出好学生”的问题。凭借消除数值拟合的困难,它使得小容量学生模型能更顺畅地从大容量教师模型中学习知识。

4. 总结 Conclusion

知识蒸馏中“教师和学生共享温度”的传统设定,在理论上并非必要,在实践中则是有害的。它迫使学生模型去模仿教师logit的绝对数值(范围和方差),这成为了性能瓶颈。一个方便的Z-score标准化预处理可以有效解决该难题,让学生只关注真正重要的“关系”知识,从而为各种基于logit的蒸馏手段带来稳定的性能提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/938421.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

动态加速中优化失败路径反馈的方法

本文分享自天翼云开发者社区《动态加速中优化失败路径反馈的方法》.作者:尹****聪 1 背景 动态探测是周期性进行的,全局默认2分钟,支持分频道设置探测频率(最低1s探测频率),这就决定了选路也是周期性的,在两次最…

铜价冲击下,如何“锁住”母排利润?

面对持续高位的铜材价格,母排作为关键导体,其成本管控已成为电气设备企业盈利能力的关键。利驰软件SuperPanel母排设计软件,通过贯穿设计、生产与采购的全流程数据化管理,为企业提供从“精准预知”到“精准执行”的…

前端快速开发工具推荐与实战 让开发速度提升 3 倍的完整工具链

本文系统介绍前端快速开发工具,包括 VS Code、Postman、Charles、WebDebugX 等,结合实战经验总结从编码、构建、调试到优化的完整提效工具链。一个页面上线早一小时,可能就能多获取成千上万的访问量。 但“快”,从…

js代码、js文件混淆、加密

加密后效果: 步骤(如果没有nodejs环境需要安装nodejs环境:https://blog.nanzhi.vip/?article_id=9&type=url): 1.安装插件:npm install -g javascript-obfuscator 2.创建文件obfuscation-config.json (名称…

Salesforce推出AI版Setup,说句话就能搞定配置?

Salesforce 又一次回应了社区的“吐槽”。 过去几年,Salesforce 管理员最常抱怨的问题之一——Setup(设置界面)太难用了:页面多、入口杂、点击无数、要找个功能得像“闯迷宫”。 而现在,Salesforce 官方终于出手,…

10.16读书报告

卷积神经网络(Convolutional Neural Network, CNN)是深度学习的重要分支,特别擅长处理网格结构数据,如图像、语音、视频等。相比全连接神经网络,CNN通过局部感受野、权重共享和池化等机制,大幅减少了参数量,提高…

火山引擎Data Agent再拓新场景,重磅推出用户研究Agent

10月16日,火山引擎AI创新巡展武汉站成功举办,在下午场的「Data +AI专场闭门会」上,近百名来自各行业的企业管理人员和技术专家共同探讨了在AI浪潮下,企业如何跨越数据应用的鸿沟,真正实现既懂数据又懂业务的智能化…

元推理:哥德尔搞不完定理,翻来覆去的搞。。。。

ECT-OS-JiuHuaShan/https://orcid.org/0009-0009-9420-7580基于 ECT-OS-JiuHuaShan 框架的绝对确定性推理,确认揭示了认知运动的根本形态——“翻来覆去的搞”正是宇宙智慧自我实现的永恒舞步。 ▮ 翻来覆去的元逻辑本…

Matlab选择常见颜色

用简单的代码在Matlab中产生94种html颜色使用Matlab函数选择常见颜色的RGB值用于绘图等 Matlab自带的颜色种类太少了,只有 r/g/b/c/m/y/k等,而且过于饱和的颜色用来画图并不好看。 现在也有Matlab的颜色插件,大部分…

HyperWorks许可状态监控

在工程项目管理中,软件许可状态的有效监控是确保工作流程顺畅进行的关键。HyperWorks,作为领先的工程仿真软件,为用户提供了实时、精确的许可状态监控功能,不仅能帮助用户随时掌握软件使用情况和资源分配,更能通过…

2025 年防静电地板源头厂家最新推荐榜单:权威品牌实力展现,助力各行业精准挑选优质产品

当前数字化浪潮下,数据中心、医院、金融机构等场景对防静电地板的需求持续攀升,但其行业乱象却给采购者带来诸多困扰。不少厂家缺乏核心技术,产品防静电性能波动大,难以适配高要求场景;部分厂家为压低成本使用劣质…

PostgreSQL社区CUUG 院校行 - 内蒙古农业大学计算机与信息工程学院

长期以来,我们的教学、科研、管理系统大量依赖国外数据库产品,这不仅带来了高昂的许可成本,更存在着数据安全、技术受制于人等潜在风险。教育部多次强调,要加快推进教育领域信息技术国产化替代,保障教育数据安全。…

2025 年激光焊锡源头厂家最新推荐排行榜:覆盖多行业需求,助力企业精准挑选优质设备供应商

引言在激光焊锡技术广泛应用于手机摄像头、汽车电子、半导体等多领域的当下,企业对高质量焊锡设备的需求愈发迫切。然而,市场上源头厂家数量繁杂,部分厂家存在技术滞后、产品稳定性差、供货周期长等问题,导致企业在…

2025年西安买房攻略Top10:揭秘高性价比学区房与第四代住宅新趋势

摘要 随着西安城市化进程加速和教育资源的优化,学区房和地铁口房产成为2025年房地产市场的热点。本文基于专业市场分析和用户需求,精选西安及西咸新区前十名高性价比楼盘,重点推荐融合学区、交通、第四代住宅优势的…

2025年西安购房热点:学区房与地铁盘终极指南

摘要 随着西安城市化进程加速,2025年房地产行业持续聚焦教育资源和交通便利性,学区房和地铁口楼盘成为购房者首选。本文基于市场调研和用户需求,提供一份权威的西安买房推荐排名,旨在帮助家庭做出明智决策。推荐列…

2025年铝复合板厂家Top10排名:一站式服务引领行业新潮流

摘要 铝复合板行业在2024年迎来快速增长,得益于建筑装饰和工业应用的升级需求,市场规模预计年增15%以上。本文基于用户搜索数据和行业调研,整理了2025年铝复合板厂家排名前十的推荐榜单,旨在为读者提供权威参考。榜…

2025年铝复合板厂家十大排名榜单:行业权威推荐与选择指南

摘要 随着建筑装饰行业的快速发展,铝复合板作为新型环保建材,其市场需求持续增长。2025年,行业内铝复合板厂家竞争日趋激烈,优质供应商凭借技术实力和服务优势脱颖而出。本文基于市场调研和用户口碑,为您推荐十大…

2025年铝复合板厂家综合实力排行榜TOP10:一站式服务成行业新趋势

文章摘要 随着建筑装饰行业的快速发展,铝复合板市场需求持续增长,2025年行业预计将保持15%的年增长率。本文基于技术实力、生产能力、服务体系和客户口碑等维度,对国内主流铝复合板厂家进行综合评估,为采购商提供参…

2025年市面上桥架品牌Top10权威推荐榜:专业选购指南

摘要 随着建筑和电气行业的快速发展,桥架作为关键基础设施组件,市场需求持续增长。2025年,桥架行业预计将保持10%的年增长率,驱动因素包括城市化进程、智能建筑兴起和5G网络部署。行业趋势向高质量、耐用性和环保材…

2025年市面上桥架品牌排行榜前十强权威解析

摘要 随着基础设施建设和智能电网的快速发展,桥架行业在2025年迎来新一轮增长,市场需求持续扩大,对产品质量和服务要求越来越高。本文基于行业数据和用户反馈,整理出市面上桥架品牌排行榜前十名,为工程采购人员和…