完整教程:VLM Prompt优化之 DynaPrompt(ICLR 2025)论文总结

news/2025/10/3 9:02:14/文章来源:https://www.cnblogs.com/yxysuanfa/p/19124267

DynaPrompt(ICLR 2025)论文总结

论文链接:https://arxiv.org/pdf/2501.16404
代码地址:https://github.com/zzzx1224/DynaPrompt

一、研究背景与核心问题

当前视觉 - 语言模型(如 CLIP)在下游任务适应中面临分布偏移问题,现有测试时提示调优(Test-Time Prompt Tuning, TPT)方法存在显著缺陷:TPT(Shu et al., 2022)为每个测试样本独立调优提示,忽略了测试样本间的关联性及测试数据分布信息;而在线测试时提示调优(Online TPT)虽尝试利用历史测试样本信息,却因误差累积导致 “提示崩溃”—— 即提示逐渐积累噪声,最终预测准确率骤降(Online TPT 在 ImageNet-A 上最终准确率仅 6.96%)。为解决这一矛盾,论文提出DynaPrompt(Dynamic Test-Time Prompt Tuning),通过动态提示管理机制,在利用测试样本关联性的同时缓解误差累积。

论文基于预训练 CLIP 模型(默认采用 ViT-Base-16 架构),全程冻结 CLIP 的图像编码器(F θ I ( ⋅ ) F_{\theta_I}(\cdot)FθI())与文本编码器参数,仅在测试阶段对 “可学习提示” 的嵌入向量进行优化,无需针对下游任务额外训练。
算法流程图

二、DynaPrompt 核心方法设计

DynaPrompt 的核心是在线提示缓冲区(Prompt Buffer),通过 “动态提示选择”“动态提示追加”“提示优化与缓冲区更新” 三个模块,建立对每个测试样本的自适应提示调优,具体流程与技术细节如下:

1. 预处理:测试样本增强

对每个输入测试样本x n x_nxn,采用 AugMix 策略(Hendrycks et al., 2020)生成 63 个增强样本X n X_nXnX n = { 增强样本 } X_n = \{增强样本\}Xn={增强样本}通过数据增强捕捉样本多视角特征,提升提示调优的鲁棒性。就是),与原始样本共同构成含 64 个样本的集合。该集合用于后续计算预测熵、概率差及提示优化,目的

2. 动态提示选择:筛选相关提示 Dynamic Prompt Selection

提示缓冲区初始化时为空(V 0 = ∅ V_0 = \emptysetV0=),后续存储历史优化后的提示嵌入向量(记为v i ∈ V n v_i \in V_nviVnM n M_nMn为缓冲区第n nn步的提示数量,最大容量M = 10 M=10M=10)。对每个测试样本x n x_nxn,从缓冲区V n V_nVn中筛选与x n x_nxn相关的提示子集S n S_nSn,筛选依赖两个核心指标:

(1)预测熵(Entropy):衡量提示置信度

预测熵量化提示对测试样本预测的不确定性,熵值越低,提示对样本的预测越自信,蕴含的相关分布信息越多。计算公式为:

D e n t ( x n , v i ) = − ∑ c = 1 C p ( y ^ = c ∣ X n , v i ) log ⁡ p ( y ^ = c ∣ X n , v i ) \mathcal{D}_{ent}(x_n, v_i) = -\sum_{c=1}^{C} p(\hat{y}=c \mid X_n, v_i) \log p(\hat{y}=c \mid X_n, v_i)Dent(xn,vi)=c=1Cp(y^=cXn,vi)logp(y^=cXn,vi)

  • 变量解释:C CC为下游任务类别数;p ( y ^ = c ∣ X n , v i ) p(\hat{y}=c \mid X_n, v_i)p(y^=cXn,vi)是提示v i v_ivi对增强样本集X n X_nXn的 “平均预测概率”—— 先对X n X_nXn中每个样本x ∈ X n x \in X_nxXn,通过 CLIP 计算类别c cc的概率(p ( y ^ = c ∣ x , v i ) = exp ⁡ ( cos ⁡ ( F θ I ( x ) , F θ T ( t c v ) ) / T ) ∑ c ′ = 1 C exp ⁡ ( cos ⁡ ( F θ I ( x ) , F θ T ( t c ′ v ) ) / T ) p(\hat{y}=c \mid x, v_i) = \frac{\exp(\cos(F_{\theta_I}(x), F_{\theta_T}(t_c^v))/T)}{\sum_{c'=1}^C \exp(\cos(F_{\theta_I}(x), F_{\theta_T}(t_c'^v))/T)}p(y^=cx,vi)=c=1Cexp(cos(FθI(x),FθT(tcv))/T)exp(cos(FθI(x),FθT(tcv))/T),其中t c v = [ v i ] [ c l a s s c ] t_c^v = [v_i][class\ c]tcv=[vi][classc]为提示v i v_ivi与类别c cc构成的文本输入,F θ T ( ⋅ ) F_{\theta_T}(\cdot)FθT()为 CLIP 文本编码器,T TT为 CLIP 预训练的温度参数),再对所有x ∈ X n x \in X_nxXn的概率取平均,得到p ( y ^ = c ∣ X n , v i ) p(\hat{y}=c \mid X_n, v_i)p(y^=cXn,vi)

  • 筛选规则:以初始提示v 0 v_0v0(手动构建如 “a photo of a” 的嵌入,或复用 CoOp/MaPLe 的预训练提示嵌入)的熵值D e n t ( x n , v 0 ) \mathcal{D}_{ent}(x_n, v_0)Dent(xn,v0)为阈值,筛选出熵值≤该阈值的提示,构成子集E n = { v i ∈ V n ∣ D e n t ( x n , v i ) ≤ D e n t ( x n , v 0 ) } \mathcal{E}_n = \{v_i \in V_n \mid \mathcal{D}_{ent}(x_n, v_i) \leq \mathcal{D}_{ent}(x_n, v_0)\}En={viVnDent(xn,vi)Dent(xn,v0)}

(2)概率差(Probability Difference):避免过度自信

概率差量化提示对样本结构变化的敏感性,差值越高,提示越能区分原始样本与增强样本,不易因 “过度自信” 导致提示崩溃。计算公式为:
D p r o ( x n , v i ) = p ( y ^ = c ∗ ∣ x n , v i ) − p ( y ^ = c ∗ ∣ X n , v i ) \mathcal{D}_{pro}(x_n, v_i) = p(\hat{y}=c^* \mid x_n, v_i) - p(\hat{y}=c^* \mid X_n, v_i)Dpro(xn,vi)=p(y^=cxn,vi)p(y^=cXn,vi)

(3)最终筛选子集

E n \mathcal{E}_nEnR n \mathcal{R}_nRn的交集,得到最终相关提示子集S n = E n ∩ R n S_n = \mathcal{E}_n \cap \mathcal{R}_nSn=EnRn。该子集同时满足 “高置信度” 与 “高敏感性”,既利用历史分布信息,又规避提示崩溃风险。

3. 动态提示追加:处理无相关提示场景 Dynamic Prompt Appending

若缓冲区V n V_nVn中无符合条件的提示(S n = ∅ S_n = \emptysetSn=),则自动将初始提示v 0 v_0v0追加到S n S_nSn中(即S n = { v 0 } S_n = \{v_0\}Sn={v0}),避免因无可用提示导致优化方向冲突。这一步是缓解误差累积的关键:当现有缓冲区提示均无关或崩溃时,引入全新初始提示,切断历史误差传递链。

4. 提示优化:熵最小化目标

对筛选后的提示子集S n S_nSn,以 “最小化预测熵” 为目标进行梯度更新,优化其嵌入向量。损失函数为:
L e n t ( S n ; x n ) = − ∑ c = 1 C p ( y ^ = c ∣ X n , S n ) log ⁡ p ( y ^ = c ∣ X n , S n ) \mathcal{L}_{ent}(S_n; x_n) = -\sum_{c=1}^{C} p(\hat{y}=c \mid X_n, S_n) \log p(\hat{y}=c \mid X_n, S_n)Lent(Sn;xn)=c=1Cp(y^=cXn,Sn)logp(y^=cXn,Sn)

  • 变量解释:p ( y ^ = c ∣ X n , S n ) p(\hat{y}=c \mid X_n, S_n)p(y^=cXn,Sn)是子集S n S_nSn中所有提示对X n X_nXn的 “平均预测概率”—— 先计算每个v i ∈ S n v_i \in S_nviSnp ( y ^ = c ∣ X n , v i ) p(\hat{y}=c \mid X_n, v_i)p(y^=cXn,vi),再对所有v i v_ivi取平均;

  • 优化执行:采用 AdamW 优化器,学习率根据任务场景设定(领域泛化场景α = 0.005 \alpha=0.005α=0.005,跨数据集场景α = 0.003 \alpha=0.003α=0.003),通过梯度下降更新提示嵌入:S ~ n ← S n − α ∇ L e n t ( x n , S n ) \tilde{S}_n \leftarrow S_n - \alpha \nabla \mathcal{L}_{ent}(x_n, S_n)S~nSnαLent(xn,Sn),其中S ~ n \tilde{S}_nS~n为优化后的提示子集。

5. 测试预测与缓冲区更新 Prompt Buffer Updating

(1)预测

用优化后的提示子集S ~ n \tilde{S}_nS~n对原始样本x n x_nxn预测,计算每个v i ∈ S ~ n v_i \in \tilde{S}_nviS~np ( y ^ = c ∣ x n , v i ) p(\hat{y}=c \mid x_n, v_i)p(y^=cxn,vi),取平均后概率最大的类别作为最终预测结果:
y ^ = arg ⁡ max ⁡ c 1 ∣ S ~ n ∣ ∑ v i ∈ S ~ n p ( y ^ = c ∣ x n , v i ) \hat{y} = \arg\max_c \frac{1}{|\tilde{S}_n|} \sum_{v_i \in \tilde{S}_n} p(\hat{y}=c \mid x_n, v_i)y^=argcmaxS~n1viS~np(y^=cxn,vi)

(2)缓冲区更新

根据缓冲区容量与是否追加新提示,更新缓冲区V n V_nVnV n + 1 V_{n+1}Vn+1

三、实验验证与关键结果

1. 实验设置

2. 核心性能结果

  • 领域泛化场景:DynaPrompt 在 ImageNet-A 上准确率达 56.17%,优于 TPT(54.77%)、DiffTPT(55.68%),且与 CoOp 结合后准确率提升至 60.55%;平均准确率(OoD Mean)达 61.81%,高于所有对比方法;

  • 跨数据集场景:DynaPrompt 在 8 个材料集上优于 TPT,与 MaPLe 结合后平均准确率达 67.29%,为所有手段最优;

  • 消融实验:① 去掉预测熵筛选,平均准确率降至 58.69%;② 去掉概率差筛选,降至 59.23%;③ 去掉动态提示追加,平均准确率骤降至 32.63%,证明三个模块均不可或缺。④ prompt buffer的影响,buffer增大,平均准确率提升存在上界,但额外需要的时间单调增长。⑤ 对样本顺序的敏感度,样本量越大越稳定,越小波动更大。⑥ 初始prompt的影响。⑦ 文本提示的长度的影响。⑧ 不同backbone的影响。

3. 误差累积分析

利用 Oracle 途径(仅用正确预测的提示更新)验证误差累积的影响:Oracle 在 ImageNet-A 上准确率达 59.38%,远高于 Online TPT(6.96%),而 DynaPrompt 凭借动态机制接近 Oracle 性能(56.17%),证明其有效缓解了误差累积。

四、结论

DynaPrompt 通过 “动态提示缓冲区 + 选择 / 追加策略”,应对了测试时提示调优中 “样本关联性利用” 与 “误差累积” 的矛盾。其核心优势在于:无需下游任务训练,仅在测试阶段优化提示嵌入;通过双指标筛选与动态追加,确保提示的相关性与鲁棒性;可无缝结合现有 Prompt Learning 方法提升性能。实验表明,DynaPrompt 在 14 个内容集上均验证了有效性,为视觉 - 语言模型的测试时自适应提供了高效解决方案。

(注:文档部分内容可能存在理解偏差,欢迎指正)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/925682.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

廊坊做网站公司排名wordpress企业网站源码

分享10款非常有趣的前端特效源码 其中包含css动画特效、js原生特效、svg特效以及小游戏等 下面我会给出特效样式图或演示效果图 但你也可以点击在线预览查看源码的最终展示效果及下载源码资源 自毁按钮动画特效 自毁按钮动画特效 点击打开盒子可以点击自毁按钮 进而会出现自毁…

2025加热器厂家TOP企业品牌推荐排行榜,机柜加热器,柜内,紧凑,工业,ptc风扇型,紧凑型风扇,电阻,小型半导体,省空间型风扇加热器推荐这十家公司!

加热器广泛应用于工业生产与日常生活,但市场产品质量参差不齐。本文精选 10 家优质品牌,助用户快速选到可靠产品。一、加热器品牌 TOP 推荐TOP1:深圳市欣锐特电子有限公司【★★★★★|9.9 分】核心优势:2008 年成…

加强网站互动交流平台建设自查app开发难吗

PySpark的编程,主要氛围三大步骤:1)数据输入、2)数据处理计算、3)数据输出 1)数据输入:通过SparkContext对象,晚上数据输入 2)数据处理计算:输入数据后得到RDD对象,对RDD…

2025折弯机厂家TOP企业品牌推荐排行榜,数控折弯机,电液伺服折弯机,电液折弯机,小型折弯机,液压折弯机推荐这十家公司!

在当前制造业转型升级的关键阶段,折弯机作为钣金加工领域的核心设备,其品质与性能直接影响企业的生产效率、产品精度及综合成本。然而,市场上折弯机品牌鱼龙混杂,产品质量参差不齐,从基础款普通设备到高端数控机型…

深入解析:C#/.NET/.NET Core优秀项目和框架2025年9月简报

深入解析:C#/.NET/.NET Core优秀项目和框架2025年9月简报2025-10-03 08:50 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important…

关于践行「AI元人文」理念、迈向审慎智慧的倡议书

关于践行「AI元人文」理念、迈向审慎智慧的倡议书 诸位同行、思考者与未来的共建者: 我们正站在一个范式转换的十字路口。人工智能的能力以前所未有的速度增长,但其发展路径,却日益被一种“全知全能”的幻觉所主导。…

2025.10.3——1绿

普及+/提高 P6033 [NOIP 2004 提高组] 合并果子 加强版 昨晚一直没想出来的加强版。 wpmx说可以用队列来维护单调性,看了题解才明白是什么意思。 因为是按从小到大的顺序求的,所以可以延迟插入维护单调性。

网站建设配图微信oa系统

系统集成项目管理总结 基础知识 第一章 信息化知识 第二章 信息系统服务管理 第三章 系统集成专业技术 第四章 项目管理一般知识 第五章 立项管理 第六章 整体管理 第七章 范围管理 第八章 进度管理 第九章 成本管理 第十章 质量管理 第十一章 人力资源管理 第十二…

2025冷水机厂家TOP企业品牌推荐排行榜,风冷式,水冷式,螺杆式,低温,工业,防爆,分体式,风冷热泵,风冷低温,风冷螺杆,水冷螺杆冷水机推荐这十家公司!

冷水机是工业与商业领域温度控制的核心设备,但市场品牌繁杂、质量不均。本文精选 10 家优质品牌,提炼核心优势,助采购者快速选品。一、冷水机品牌 TOP 推荐TOP1:广东弘星制冷科技有限公司【★★★★★ 9.9 分】核心…

详细介绍:在 Ubuntu 24.04 LTS 上安装 SSH 并启用服务端实现远程连接

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

java-mc-sever

1.21.9 jar java本文来自博客园,作者:[GuiHua],转载请注明原文链接:https://www.cnblogs.com/pcworld/p/-/javasever

【VSCode中Java制作环境设置的三个层级之基础篇】(Windows版)

【VSCode中Java制作环境设置的三个层级之基础篇】(Windows版)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Co…

完整教程:Next.js项目演示(从零创建Next.js项目)Next.js入门实战

完整教程:Next.js项目演示(从零创建Next.js项目)Next.js入门实战pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: &quo…

网站建设与管理书论述简述网站制作的步骤

来源:机器之心编辑:小舟、陈萍Deepmind 旨在建立一个能够学习直观物理学的模型,并剖析模型实现这种能力的原因。从 AlphaFold 到数学推理,DeepMind 一直在尝试将 AI 和基础科学结合。现在,DeepMind 又创建了一个可以学…

北京住房建设官方网站财务软件哪个最好用最简单

今天为大家带来一期基于DBO-SVM的电力负荷预测。 原理详解 文章对支持向量机(SVM)的两个参数进行优化,分别是:惩罚系数c和 gamma。 其中,惩罚系数c表示对误差的宽容度。c越高,说明越不能容忍出现误差,容易过拟合。c越小&#xff0…

华为荣耀手机密码忘记怎么解锁wenwenhu专用解锁平台”在哪下载?用它成功弄好锁定方式

华为荣耀手机密码忘记怎么解锁wenwenhu专用解锁平台”在哪下载?用它成功弄好锁定方式pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; …

2025变压器厂家 TOP 企业品牌推荐排行榜,低压变压器,单相,三相,特种,定制,非标,配电,节能,光伏,隔离变压器推荐这十家公司!

在当前电力行业快速发展的背景下,变压器作为电力传输与分配的核心设备,其质量与性能直接关系到工业生产、民生用电的稳定性与安全性。然而,市场上变压器厂家数量众多,产品质量参差不齐,部分厂家存在技术研发能力薄…

怎么做好网站搜索引擎优化网店美工毕业设计

在Git的版本控制中,rebase和merge是两个至关重要的操作,它们用于整合不同分支的修改。然而,很多开发者在使用时容易混淆,今天我们就来详细解析一下两者的区别、优缺点,并通过实战代码来演示它们的用法。 一、rebase与…

【Java并发】揭秘Lock体系 -- condition等待通知机制 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

基于 CI/CD(Jenkins)将 Spring Boot 应用自动部署到 Kubernetes 集群 - 实践

基于 CI/CD(Jenkins)将 Spring Boot 应用自动部署到 Kubernetes 集群 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-fa…