免训练指标(Zero-Cost Proxies)

1. 什么是免训练指标(Zero-Cost Proxies,ZC proxies)?

免训练指标是一类 无需完整训练模型即可评估其性能的度量方法,主要用于提高 神经架构搜索(NAS) 的效率。
传统 NAS 需要训练候选架构来评估其性能,但训练消耗巨大,因此免训练指标提供了一种 基于模型本身特性(如梯度、参数分布)快速估计模型质量的方法

核心思想:
只用一个小批量数据 计算某些统计量(如梯度、参数重要性、激活值分布),从而 近似衡量模型的好坏,而不需要完整训练整个模型。


2. 免训练指标的类别

免训练指标可以大致分为两类:

  1. 传统结构分析指标(如 SNIP、Synflow、Fisher)
  2. 基于知识蒸馏的指标(如 DisWOT)

(1)传统结构分析指标

这些方法通常通过计算 梯度、权重、Hessian 矩阵 等信息来评估模型的质量。

① SNIP(Single-shot Network Pruning)
  • 计算梯度的重要性,衡量每个参数对损失函数的影响:
    ρ s n i p = ∣ ∂ L ∂ W ⊙ W ∣ \rho_{snip} = \left| \frac{\partial \mathcal{L}}{\partial \mathcal{W}} \odot \mathcal{W} \right| ρsnip= WLW
  • 核心思想:如果去掉某个权重后损失变化较大,则该权重很重要。因此,可以用梯度信息估算整个网络的质量。
② Synflow
  • 通过梯度流分析,避免层塌陷(layer collapse):
    ρ s y n f l o w = ∂ L ∂ W ⊙ W \rho_{synflow} = \frac{\partial \mathcal{L}}{\partial \mathcal{W}} \odot \mathcal{W} ρsynflow=WLW
  • 核心思想:确保不同层的梯度能够均匀流动,以保持架构的稳定性。
③ Fisher
  • 计算激活梯度的平方和,用于通道剪枝:
    ρ f i s h e r = ( ∂ L ∂ A A ) 2 \rho_{fisher} = \left( \frac{\partial \mathcal{L}}{\partial \mathcal{A}} \mathcal{A} \right)^2 ρfisher=(ALA)2
  • 核心思想:通道(Channel)如果对梯度变化敏感,则在训练时影响更大,可以用它来衡量模型质量。

(2)基于知识蒸馏的指标

DisWOT(Distillation Without Training)

  • 这是一种 基于知识蒸馏的免训练指标,通过计算 教师-学生模型的特征匹配误差 来评估网络质量:
    ρ D i s W O T = D L 2 ( G ( [ A S , A T ] ) ) + D L 2 ( G ( [ F S , F T ] ) ) \rho_{DisWOT} = \mathcal{D}_{L2} (\mathcal{G}([AS,AT])) + \mathcal{D}_{L2} (\mathcal{G}([FS,FT])) ρDisWOT=DL2(G([AS,AT]))+DL2(G([FS,FT]))

  • 其中:

    • ( AS, AT ) 是教师-学生模型的 激活图(Activation Maps)
    • ( FS, FT ) 是教师-学生模型的 特征图(Feature Maps)
    • ( \mathcal{D}_{L2} ) 计算的是 L2 距离(欧几里得距离),衡量特征匹配误差
  • 核心思想:如果一个模型可以很好地模仿教师模型的特征分布(即 L2 误差小),则这个模型的质量更好。


3. 免训练指标如何用于 NAS

在 NAS 中,免训练指标可以用于:

  1. 快速评估候选架构
    • 在搜索空间中 筛选掉性能较差的架构,减少训练计算量。
  2. 结合搜索算法优化架构
    • 可以将 梯度信息(SNIP, Synflow)知识蒸馏误差(DisWOT) 作为搜索目标,指导 NAS 选择更优的架构。
  3. 设计高效的蒸馏感知 NAS(DAS)
    • 结合 DAS(Distillation-aware Architecture Search),让 NAS 选择对知识蒸馏更友好的模型,提高轻量化模型的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/73636.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言 —— 此去经年梦浪荡魂音 - 深入理解指针(卷二)

目录 1. 数组名与地址 2. 指针访问数组 3.一维数组传参本质 4.二级指针 5. 指针数组 6. 指针数组模拟二维数组 1. 数组名与地址 我们先看下面这个代码: int arr[10] { 1,2,3,4,5,6,7,8,9,10 };int* p &arr[0]; 这里我们使用 &arr[0] 的方式拿到了数…

基于Python pyscard库采集ACS ACR122U NFC读卡器数据的详细操作步骤

步骤1:安装驱动 1. 下载驱动: - 访问ACS官网的驱动下载页面:[ACR122U驱动下载](https://www.acs.com.hk/en/drivers/6/acr122u-nfc-reader/)。 - 选择适用于Windows的驱动(如 ACR122U Driver (Windows) V3.05.02.zip)…

深度学习 Deep Learning 第1章 深度学习简介

第1章 深度学习简介 概述 本章介绍人工智能(AI)和深度学习领域,讨论其历史发展、关键概念和应用。解释深度学习如何从早期的AI和机器学习方法演变而来,以及如何有效解决之前方法无法应对的挑战。 关键概念 1. 人工智能的演变 …

python实现简单的图片去水印工具

python实现简单的图片去水印工具 使用说明: 点击"打开图片"选择需要处理的图片 在图片上拖拽鼠标选择水印区域(红色矩形框) 点击"去除水印"执行处理 点击"保存结果"保存处理后的图片 运行效果 先简要说明…

软件功能性测试有哪些步骤和挑战?软件测评服务机构分享

软件功能性测试是对软件系统进行验证的一种基本方法。其主要目标是确保软件系统能够按照预期的要求和功能进行操作。从用户的角度看,功能性测试旨在检查软件是否实现了所有要求的功能,保证用户体验的顺畅与满意。 一、软件功能性测试的测试步骤   1、…

《C#上位机开发从门外到门内》3-4:基于TCP/IP的远程监控系统设计与实现

文章目录 一、项目概述二、系统架构设计三、通信协议设计四、功能模块实现五、系统安全性与稳定性六、性能优化与测试七、实际应用案例八、结论 随着信息技术的飞速发展,远程监控系统在工业自动化、智能家居、环境监测等领域的应用日益广泛。基于TCP/IP协议的远程监…

在react当中利用IntersectionObserve实现下拉加载数据

目录 一、传统的下拉加载方案 二、存在问题 1.性能较差 2.不够精确 三、IntersectionObserve版本下拉加载 1、callback 2、options 四、IntersectionObserver实例 1、Intersection的优势 2、实现思路 3、代码实现 在进行前端开发的过程中,常常会碰到下拉…

深入理解C++编程:从内存管理到多态与算法实现

C 是一门功能强大的编程语言,广泛应用于系统编程、游戏开发和高性能计算等领域。本文将通过一系列经典问题,深入探讨 C 的核心知识点,包括内存管理、多态(结合函数重载与覆盖)、多线程、TCP/IP 模型、软链接与硬链接的…

相对论之光速

然而,基础物理学的进步很少全部由实验取得。为了解实验结果背后的机制,法拉第问道,既然磁铁没有接触导线,导线中怎么会产生电流?一股电流又怎么能使指南针指针发生偏转?有某种作用因素必然在磁铁、导线和指南针之间的空隙中传递…

文本检测-文本内容审核-文本过滤接口如何用PHP调用?

一、什么是文本检测接口呢? 文本内容审核过滤,提供对敏感事件、违规词语及监管要求封禁词语的识别审核能力,包含海量历史数据,有效过滤违禁违规、恶意推广、低俗辱骂、低质灌水、广告法审核,该接口应用场景广泛&#…

突破极限:猎板PCB在HDI盲埋孔树脂塞孔工艺中的创新与挑战

在高端电子制造领域,HDI(高密度互连)技术凭借其高精度、高可靠性的特点,已成为5G通信、航空航天、智能汽车等领域的核心技术支撑。作为HDI板制造的核心环节,盲埋孔树脂塞孔工艺直接决定了电路板的信号完整性、散热性能…

群体智能优化算法-䲟鱼优化算法 (Remora Optimization Algorithm, ROA,含Matlab源代码)

摘要 䲟鱼优化算法(Remora Optimization Algorithm,ROA)是一种基于䲟鱼在海洋中寄生与捕食者间交互关系而提出的元启发式算法。通过模拟䲟鱼在宿主附近进行寄生、吸附和随机机动等行为,ROA 在全局与局部搜索之间取得平衡。本文提…

【数学建模】一致矩阵的应用及其在层次分析法(AHP)中的性质

一致矩阵在层次分析法(AHP)中的应用与性质 在层次分析法(AHP)中,一致矩阵是判断矩阵的一种理想状态,它反映了决策者判断的完全合理性和一致性,也就是为了避免决策者认为“A比B重要,B比C重要,但是C又比A重要”的矛盾。…

DeepSeek R1 与 ktransformers:结合苹果 M4 Mac 的 LLM 推理深度分析

引言 大型语言模型(LLM)的快速发展为人工智能领域带来了革命性变化。DeepSeek R1 和 ktransformers 代表了软件层面的最新突破,而苹果在 2025 年 3 月 12 日发布的 M4 Mac 系列则提供了硬件支持。本文将深入分析这些技术的交汇点&#xff0c…

JavaScript基本知识

文章目录 一、JavaScript基础1.变量(重点)1-1 定义变量及赋值1-2 变量的命名规则和命名规范判断数据类型: 2.数据类型转换2-1 其他数据类型转成数值2-2 其他数据类型转成字符串2-3 其他数据类型转成布尔 3.函数3-1函数定义阶段3-2函数调用阶段…

[IP]UART

UART 是一个简易串口ip,用户及配置接口简单。 波特率从9600至2000000。 该 IP 支持以下特性: 异步串行通信:标准 UART 协议(1 起始位,8 数据位,1 停止位,无奇偶校验)。 参数化配置…

K8s集群的环境部署

1.测试环境所需要的主机名和IP和扮演的角色 harbor 172.25.254.200 harbor仓库 k8s-master 172.25.254.100 k8s集群控制节点 k8s-node1 172.25.254.10 k8s集群工作节点 k8s-node2 172.25.254.20 k8集群工作节点 注意:所有节点禁用selinux和防火墙 所有节点同步…

pytest自动化测试[面试篇]

pytest是python的测试框架,它提供了许多功能, 测试运行 组织pytest的测试用例代码:模块名称以test_开头,类名以Test开头,函数名以test_开头, 然后用pytest命令即可运行测试用例。 可以在命令行中,用pyte…

树莓派急速安装ubuntu;映射磁盘与储存磁盘文件;ubuntu映射整个工程;保存系统工作状态

一、用途 在使用树莓派上下载ubuntu时,需要一张sd卡,当你需要给这张卡做备份的时候,可以是使用磁盘映射软件,从而达到备份的目的 同时有一些大佬发布了ubuntu的映射文件,可以直接使用该文件,然后还原他的整…

Python学习第十九天

Django-分页 后端分页 Django提供了Paginator类来实现后端分页。Paginator类可以将一个查询集(QuerySet)分成多个页面,每个页面包含指定数量的对象。 from django.shortcuts import render, redirect, get_object_or_404 from .models impo…