【视觉提示学习】3.28阅读随想

2109.01134

CoOp通过可学习的向量来建模提示的上下文词汇,这些向量可以用随机值或预训练的词嵌入进行初始化(见图2)。我们提供了两种实现方式,以处理不同性质的任务:一种是基于统一上下文(unified context),它与所有类别共享相同的上下文,并且在大多数类别上表现良好;另一种是基于类别特定上下文(class-specific context),它为每个类别学习一组特定的上下文标记,并且发现在某些细粒度类别上更为合适。在训练过程中,我们只需通过最小化与可学习上下文向量相关的交叉熵损失来优化预测误差,同时保持整个预训练参数固定不变。梯度可以通过文本编码器反向传播,利用参数中编码的丰富知识来学习与任务相关的上下文。

【主线无关的记录】1.微小的措辞变化可能会对性能产生巨大影响。例如,对于Caltech101(见图1(a),第二个提示与第三个提示),在类别标记前加上“a”可以带来超过5%的准确率提升。其中添加与任务相关的上下文可以带来显著改进。调整句子结构可以带来进一步的改进。2.Jiang et al.(2020)提出通过文本挖掘和释义生成候选提示,并识别出能够获得最高训练准确率的最优提示。Shin et al.(2020)引入了一种基于梯度的方法,通过搜索在标签似然中梯度变化最大的标记来优化提示。与这些方法最相关的是连续提示学习方法(Zhong et al., 2021; Li and Liang, 2021; Lester et al., 2021),这些方法在词嵌入空间中优化连续向量。与搜索离散标记的方法相比,这种方法的缺点是缺乏一种清晰的方式来可视化所学习向量对应的“词汇”。3.CLIP首先将每个标记(包括标点符号)转换为小写的字节对编码(BPE)表示(Sennrich et al., 2016),这本质上是一个唯一的数字ID。CLIP的词汇量为49,152。为了便于小批量处理,每个文本序列都被[SOS]和[EOS]标记包围,并限制在固定长度77以内。之后,这些ID被映射到512维的词嵌入向量,然后传递给Transformer。最后,[EOS]标记位置的特征经过层归一化,并通过一个线性投影层进一步处理。CLIP的训练目标是将图像和文本的两个嵌入空间对齐。具体而言,学习目标被公式化为对比损失。给定一批图像-文本对,CLIP最大化匹配对之间的余弦相似度,同时最小化所有其他不匹配对之间的余弦相似度。

2211.10277

TaskRes保持VLMs的原始分类器权重不变,并通过调整一组与先验无关的参数作为原始权重的残差来获得目标任务的新分类器,这使得先验知识得以可靠地保留,同时能够灵活地探索特定于任务的知识。它直接在基于文本的分类器上进行操作,并明确地将预训练模型的旧知识和目标任务的新知识解耦。其原理是,解耦使得从VLMs更好地继承旧知识,并且更灵活地探索特定于任务的知识,即所学习到的关于任务的知识与旧知识无关。具体而言,TaskRes保持原始分类器权重不变,并引入一组与先验无关的参数,这些参数被添加到权重中。这些可调整的参数,针对目标任务进行调整,因此被称为“任务残差”。

其实感觉和残差没什么关系 残差是x+f(x) 然而这个方法里面新加的x与经过文本编码器的向量无关,而是一个新加的和encoder毫无关系的参数,和CoOp的主要差别可能主要在一个训练要经过文本encoder的所有的层,而一个不用。

【主线无关的记录】1.原则上,VLMs所学习到的良好知识结构在转移到数据有限的下游任务时应该被适当地继承。然而,现有的大多数高效迁移学习(ETL)方法,如提示调整(PT)和适配器风格调整(AT),要么破坏了先验知识,要么对先验知识存在过度偏差。2.ETL的核心是:(i)适当继承VLMs所学习到的良好知识结构,这些结构已经具有可迁移性;(ii)在数据有限的情况下,有效地探索特定于任务的知识。然而,现有的大多数ETL方法,如提示调整(PT)和适配器风格调整(AT),要么破坏了VLMs的先验知识,要么以不恰当/不充分的方式学习任务的新知识。例如,CoOp(图2(b))提出了学习连续提示以合成一个全新的分类器,而不是使用预训练的基于文本的分类器,这不可避免地导致了先前知识的丢失。相比之下,CLIP-Adapter保留了预训练的分类器,但在学习新任务时对先验知识存在过度偏差,即它将预训练的分类器权重转换为特定于任务的权重(如图2(c)所示)。这导致了对新知识探索的不足,从而导致了较低的准确率(如图1所示)。【clipadpter没看过还】

[2203.05557] Conditional Prompt Learning for Vision-Language Models

这篇的baseline也是CoOp,在我们的研究中,我们发现CoOp的一个关键问题是:所学习的上下文无法推广到同一数据集内更广泛的未见类别,表明CoOp对训练中观察到的基础类别存在过拟合。为了解决这一问题,我们提出了条件上下文优化(CoCoOp),它通过进一步学习一个轻量级神经网络来为每张图像生成一个输入条件化的标记(向量),从而扩展了CoOp。与CoOp的静态提示相比,我们的动态提示能够适应每个实例,因此对类别变化不那么敏感。

我感觉这篇文章提到的CoOp无法推广到同一数据集的未见类别(甚至比zeroshot还差原因就是 “加入这个模块破坏了已有的良好表示空间”)

【主线无关的记录】1.在传统的监督学习中,标签是离散化的,每个类别都与一个随机初始化的权重向量相关联,该向量被学习以最小化与包含相同类别的图像之间的距离。【一开始没太看懂 传统的监督学习学的是交叉熵损失 但是标签是随机初始化的 并无实际意义 所以可以理解为学习同类差异最小 异类差异最大?】2.为了适应像CLIP这样的网络规模数据,视觉-语言模型被设计为具有高容量,这意味着模型的大小通常会非常庞大,通常有数亿甚至数十亿的参数。因此,像深度学习研究中经常采用的那样对整个模型进行微调是不切实际的,甚至可能破坏已经学习到的良好表示空间。3.一个更安全的方法是通过添加一些对任务有意义的上下文来调整提示,例如对于上述提到的宠物数据集,“一种宠物”,这已被发现可以有效提高性能。然而,提示工程极其耗时且效率低下,因为它必须基于试错法进行,并且也不能保证找到最优的提示。为了自动化提示工程,...

[2212.10846] From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models

大型语言模型(LLMs)在新语言任务上展现了出色的零样本泛化能力。然而,将LLMs有效应用于零样本视觉问答(VQA)任务仍然面临挑战,主要是由于LLMs与VQA任务之间存在模态断层和任务断层端到端的多模态数据训练可能弥合这些断层,但这种方法不够灵活且计算成本高昂。为解决这一问题,我们提出了Img2LLM,这是一个即插即用模块,能够为LLMs提供提示,使其无需端到端训练即可执行零样本VQA任务。我们开发了与LLM无关的模型,将图像内容描述为示例问题-答案对,这些对被证明是有效的LLM提示。Img2LLM具有以下优势:1)其性能与依赖端到端训练的方法相当甚至更好。例如,我们在VQAv2上超越了Flamingo [3] 5.6%。在具有挑战性的A-OKVQA数据集上,我们的方法比少样本方法高出20%。2)它能够灵活地与各种LLMs对接以执行VQA任务。3)它消除了使用端到端微调专门化LLMs的需要,从而降低了成本。

以前模态断层的解决方案主要是 把图片转换成语言 任务断层的解决方案是 给一定的实例。

本文主要是针对端到端的训练大模型耗时耗力而设计了一个即插即用的模块,pipeline如下:1.给定图片与问题2.根据问题,使用BLIP模型的图像引导文本编码器(ITE)和GradCAM技术,找到与问题最相关的图像区域,把这些有关的区域打成patch 并依据图像块生成标题并过滤掉质量不高的标题,保留与问题相关的、有意义的标题。 3.从生成的标题中提取可能作为答案的词汇,比如名词(“风力涡轮机”)、动词(“旋转”)等。为每个答案候选生成一个问题,可以使用模板(比如“这张图片中有什么在旋转?”)或者通过神经网络生成更自然的问题。将生成的问题和对应的答案组合成问题-答案对,这些对将作为LLM(大型语言模型)的提示,帮助它理解图像内容和任务要求。4.用这些生成好的问题答案对去做实例提示,然后回答最初的问题。

感受是:多模态似乎经常根据图片生成描述性语句 然后根据描述性语句去生成问题。&&这个pipeline有点反直觉,效果蛮好的。

【主线无关的记录】1.VQA的核心目标是让机器能够根据给定的图像内容回答与该图像相关的问题,这些问题通常以自然语言的形式提出。VQA任务旨在模拟人类在观察图像时能够自然地理解和回答问题的能力。

2210.01115

本文目的还是去解决clip在训练数据上过拟合严重,在同一领域未见类别上测试时准确率大幅下降的问题。

为了缓解基础类别过拟合,本文基于以下观察提出解决方案:由于提示学习提高了基础类别的准确率,但提示工程在新类别上表现更好,因此我们提出通过添加文本到文本的交叉熵损失函数来学习软提示,使其在嵌入空间中接近文本提示,从而利用文本编码器捕获的内在信息。这种新提出的文本到文本损失函数首次实现了仅通过语言优化来适应V&L模型,这与以往仅捕捉视觉与语言交互的软提示学习方法形成对比。

【主线无关的记录】1.CoOp的一个主要限制是泛化能力弱:学习到的提示过拟合基础类别,在新类别上表现不佳。为了缓解这一问题,CoCoOp提出了一种动态版本的CoOp,其中一个小网络被训练用来从输入图像中产生一个视觉特征,该特征被添加到学习到的提示中,从而使它们具有输入特定性(即动态)。ProDA采用概率方法,通过在文本编码器的输出处对提示的分布建模为多元高斯分布。在推理过程中使用估计的均值。最后,UPL使用CLIP为目标数据集生成伪标签,然后通过自训练学习软提示。最后,ProGrad旨在通过鼓励模型“记住”CLIP的零样本预测来适应每个目标域,使用CLIP的logits和模型的logits之间的KL视觉-文本损失(即他们使用视觉特征更新权重,方向与CLIP梯度垂直)。与之相比,我们的损失是一个纯粹的文本到文本损失,进一步允许引入虚拟类别。与ProGrad不同,我们在新类别上超过了CLIP。

先看ProDA和ProGrad。未完待续

2303.13283

2205.03340 ProDA

【主线无关的记录】1.VLMs [17, 31] 使用手工设计的提示模板来构建类别描述。一个默认的提示是“一张{类别}的照片”,在通用目标识别(例如ImageNet [7] 和 STL-10 [6])上效果良好。然而,在处理细粒度目标识别时,它很难处理。在花卉数据集(Oxford Flowers 102 [28])上,更好的提示选择是“一张{类别}的照片,一种花卉。” [31]。2.另一个挑战来自于视觉内容的多样性。由于姿势、变形和光照条件等固有因素,类别内各种示例之间存在显著的多样性 [44]。这种类内方差阻止了一个提示足以描述视觉变化。提示需要多样化且富有信息量,以便能够处理视觉表示的变化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/73952.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机求职面试中高频出现的经典题目分类整理

以下为计算机求职面试中高频出现的经典题目分类整理,涵盖技术核心与深度考察方向,答案要点已附解析思路: 一、数据结构与算法 链表操作 题目:反转链表(迭代/递归实现)考察点:指针操作、递归思维…

uniapp选择文件使用formData格式提交数据

1. Vue实现 在vue项目中,我们有个文件,和一些其他字段数据需要提交的时候,我们都是使用axios 设置请求头中的Content-Type: multipart/form-data,然后new FormData的方式来进行提交。方式如下: const sendRequest = () => {const formData = new FormData()formData…

BeanDefinition和Beanfactory实现一个简单的bean容器

目录 什么是 Springbean 容器 设计思路 图解 参考文章 开源地址 BeanDefinition 类 BeanFactory 类 测试类 什么是 Springbean 容器 Spring 包含并管理应用对象的配置和生命周期,在这个意义上它是一种用于承载对象的容器,你可以配置你的每个 Bea…

AI Agent开发大全第十四课-零售智能导购智能体的RAG开发理论部分

开篇 经过前面的一些课程,我们手上已经积累了各种LLM的API调用、向量库的建立和使用、embedding算法的意义和基本使用。 这已经为我们具备了开发一个基本的问答类RAG的开发必需要素了。下面我们会来讲一个基本问答类场景的RAG,零售中的“智能导购”场景。 智能导购 大家先…

向字符串添加空格

给你一个下标从 0 开始的字符串 s ,以及一个下标从 0 开始的整数数组 spaces 。 数组 spaces 描述原字符串中需要添加空格的下标。每个空格都应该插入到给定索引处的字符值 之前 。 例如,s "EnjoyYourCoffee" 且 spaces [5, 9] &#xff0…

百人会上的蔚小理与「来的刚刚好」的雷军

这就是2025百人会上的蔚小理,努力的李斌、宣扬飞行汽车的何小鹏与大讲开源的李想。那么小米汽车的模式是什么呢?站在蔚小理的肩上。 这就是2025百人会上的蔚小理,努力的李斌、宣扬飞行汽车的何小鹏与大讲开源的李想。那么小米汽车的模式是什么…

解锁Nginx路由器匹配规则

引言 Nginx 无疑是一款备受瞩目的明星产品。它以其高性能、高可靠性以及出色的并发处理能力,在众多 Web 服务器和反向代理服务器中脱颖而出 ,广泛应用于各类网站和应用程序中。据统计,超过 30% 的网站都在使用 Nginx 作为其 Web 服务器&…

传统策略梯度方法的弊端与PPO的改进:稳定性与样本效率的提升

为什么传统策略梯度方法(如REINFORCE算法)在训练过程中存在不稳定性和样本效率低下的问题 1. 传统策略梯度方法的基本公式 传统策略梯度方法的目标是最大化累积奖励的期望值。具体来说,优化目标可以表示为: max ⁡ θ J ( θ )…

Qwt入门

Qwt(Qt Widgets for Technical Applications)是一个用于科学、工程和技术应用的 Qt 控件库,提供曲线图、仪表盘、刻度尺等专业可视化组件。 1. 安装与配置 1.1 安装方式 源码编译(推荐): git clone https://github.com/qwt/qwt.git cd qwt qmake qwt.pro # 生成 Makef…

软考《信息系统运行管理员》- 6.1 信息系统安全概述

信息系统安全的概念 信息系统安全是指保障计算机及其相关设备、设施(含网络)的安全,运行环境的安全, 信息的安全,实现信息系统的正常运行。 信息系统安全包括实体安全、运行安全、信息安全和 人员安全等几个部分。 影响信息系统安全的因素…

Canvas实现旋转太极八卦图

Canvas实现旋转太极八卦图 项目简介 这是一个使用HTML5 Canvas技术实现的动态太极八卦图,包含了旋转动画和鼠标交互功能。项目展示了中国传统文化元素与现代Web技术的结合。 主要特点 动态旋转的太极图八卦符号的完整展示鼠标悬停暂停动画流畅的动画效果 技术实…

机器学习、深度学习和神经网络

机器学习、深度学习和神经网络 术语及相关概念 在深入了解人工智能(AI)的工作原理以及它的各种应用之前,让我们先区分一下与AI密切相关的一些术语和概念:人工智能、机器学习、深度学习和神经网络。这些术语有时会被交替使用&#…

打造高性能中文RAG系统:多轮对话与语义检索的完美结合

目录 1、引言 2、RAG系统的核心架构 3、对话理解:超越单轮问答 3.1、指代消解技术 3.2、话题跟踪与记忆 4、混合检索策略:兼顾精确与广泛 4.1、向量检索 关键词检索 4.2、重排序机制 5、性能优化:应对大规模文档 5.1、向量量化技术…

人工智能助力数字化转型:生成式人工智能(GAI)认证开启新篇章

在数字化浪潮席卷全球的今天,企业正面临着前所未有的转型压力与机遇。数字化转型,这一曾经被视为“选择题”的战略议题,如今已演变为关乎企业生存与发展的“必答题”。在这场深刻的变革中,人工智能(AI)作为…

Windows 图形显示驱动开发-WDDM 2.4功能-GPU 半虚拟化(十二)

DxgkDdiQueryAdapterInfo 更新 DXGKARG_QUERYADAPTERINFO 结构已更新,以包括以下字段以支持半虚拟化: 添加了 Flags 成员,允许 Dxgkrnl 指示以下内容: 它将 VirtualMachineData 设置为指示调用来自 VM。它将 SecureVirtualMach…

iOS审核被拒:Missing privacy manifest 第三方库添加隐私声明文件

问题: iOS提交APP审核被拒,苹果开发者网页显示二进制错误,收到的邮件显示的详细信息如下图: 分析: 从上面信息能看出第三方SDK库必须要包含一个隐私文件,去第三方库更新版本。 几经查询资料得知,苹果在…

马达加斯加企鹅字幕

Antarctica 南极洲 An inhospitable wasteland 一个荒凉的不毛之地 But even here 但即使在这里 on the Earth’s frozen bottom 地球另一端的冰天雪地里 we find life 也有生命存在 And not just any life 不是别的什么生物 Penguins 而是企鹅 Joyous, frolicking 快乐的 顽皮…

爱因斯坦求和 torch

目录 向量点积 矩阵乘法 矩阵转置 向量转换相机坐标系 在 Python 的科学计算库(如 NumPy)中,einsum 是一个强大的函数,它可以简洁地表示各种张量运算。下面是几个不同类型的使用示例: 向量点积 向量点积是两个向量…

FPGA调试笔记

XILINX SSTL属性电平报错 错误如下: [DRC BIVRU-1] Bank IO standard Vref utilization: Bank 33 contains ports that use a reference voltage. In order to use such standards in a bank that is not configured to use INTERNAL_VREF, the banks VREF pin mu…

一区严选!挑战5天一篇脂质体组学 DAY1-5

Day 1! 前期已经成功挑战了很多期NHANES啦!打算来试试孟德尔随机化领域~ 随着孟德尔随机化研究的普及,现在孟德尔发文的难度越来越高,简单的双样本想被接收更是难上加难,那么如何破除这个困境,这次我打算…