企业网站能提供哪些服务深圳市龙华区属于哪个区

pingmian/2026/1/27 5:25:47/文章来源:
企业网站能提供哪些服务,深圳市龙华区属于哪个区,注册wordpress,邮箱网站怎么做Abstract 大型语言模型 (LLM) 通过利用思维链 (CoT) 提示生成中间推理链作为推断答案的基本原理#xff0c;在复杂推理方面表现出了令人印象深刻的性能。然而#xff0c;现有的 CoT 研究主要集中在语言情态上。我们提出了 Multimodal-CoT#xff0c;它将语言#xff08;文本…Abstract 大型语言模型 (LLM) 通过利用思维链 (CoT) 提示生成中间推理链作为推断答案的基本原理在复杂推理方面表现出了令人印象深刻的性能。然而现有的 CoT 研究主要集中在语言情态上。我们提出了 Multimodal-CoT它将语言文本和视觉图像模态合并到一个两阶段框架中将基本原理生成和答案推理分开。 通过这种方式答案推理可以更好地利用基于多模态信息生成的基本原理。 借助 Multimodal-CoT我们的模型在 10 亿个参数下的性能比之前最先进的 LLM (GPT-3.5) 提高了 16 个百分点 (75.17%)→ 91.68的精度甚至超过了ScienceQA基准的人类表现。 代码已公开。1 机器学习、ICML 1介绍 想象一下阅读一本没有图表的教科书。通过对视觉、语言和音频等多种数据模式进行联合建模我们获取知识的能力得到了极大的增强。最近大型语言模型 (LLM) Brown 等人2020年;托皮兰等人2022年;雷伊等人2021年;乔杜里等人2022年通过在推断答案之前生成中间推理步骤在复杂的推理中表现出了令人印象深刻的表现。这种有趣的技术称为思想链 (CoT) 推理Wei 等人2022b;小岛等人2022年;张等人2022年)。 但是与 CoT 推理相关的现有研究很大程度上孤立于语言模态Wang 等人2022b;周等人2022年;卢等人2022b; Fu等人2022年几乎没有考虑多模式方案。为了引发多模态中的 CoT 推理我们提倡 Multimodal-CoT 范式。给定不同模态的输入Multimodal-CoT 将多步骤问题分解为中间推理步骤基本原理然后推断答案。由于视觉和语言是最流行的模式因此我们在这项工作中重点关注这两种模式。图 1 显示了一个示例。一般来说有两种方法可以引发 Multimodal-CoT 推理(i) 提示 LLM 和 (ii) 微调小模型。2 图1多模式COT任务的示例。 执行Multimodal-CoT的最直接方法是将不同模态的输入转换为一种模态并提示LLM执行CoT。例如可以通过字幕模型提取图像的字幕然后将字幕与原始语言输入连接起来输入到 LLM Lu 等人2022a)。然而字幕过程中存在严重的信息丢失因此使用字幕相对于视觉特征可能会因不同模态的表示空间中缺乏相互协同作用而受到影响。 表格1典型的 CoT 技术FT微调KD知识蒸馏。第 1 部分情境学习技巧第 2 部分微调技术。据我们所知我们的工作是第一个以不同方式研究 CoT 推理的工作。此外我们专注于 1B 模型而不依赖于法学硕士的输出。 楷模多式联运无法学硕士型号/发动机训练成本角色成本来源零射击 CoT (Kojima 等人, 2022年✗✗GPT-3.5 (175B)ICL推理模板Few-Shot-CoT (Wei 等人, 2022b✗✗帕LM (540B)ICL推理手工制作self-contistency-cot   Wang等人。2022a✗✗法典 (175B)ICL推理手工制作从最少到最多的提示 (Zhou 等人, 2022年✗✗法典 (175B)ICL推理手工制作检索   Zhang等人。2022年✗✗GPT-3.5 (175B)ICL推理自动生成PromptPG-CoT (Lu 等人, 2022b✗✗GPT-3.5 (175B)ICL推理手工制作Auto-CoT (Zhang 等人, 2022年✗✗法典 (175B)ICL推理自动生成复杂性-CoT (Fu 等人, 2022年✗✗GPT-3.5 (175B)ICL推理手工制作Few-Shot-PoT (Chen 等人, 2022年✗✗GPT-3.5 (175B)ICL推理手工制作UnifiedQA (Lu 等人, 2022a✗✓T5770M金融时报解释爬行微调 T5 XXL (Magister 等人, 2022年✗✗T511B肯德基推理LLM生成Fine-Tune-CoT (Ho 等人, 2022年✗✗GPT-3 (6.7B)肯德基推理LLM生成多式联运-CoT我们的工作✓✓T5770M金融时报推理爬行 为了促进模态之间的交互另一个潜在的解决方案是通过融合多模态特征来微调较小的语言模型 (LM)Zhang 等人2023年)。由于这种方法允许灵活地调整模型架构以合并多模态特征因此我们在这项工作中研究微调模型而不是提示法学硕士。关键的挑战是 1000 亿个参数下的语言模型往往会产生幻觉的基本原理从而误导答案推断Ho 等人2022年;马吉斯特等人2022年;吉等人2022年)。 为了减轻幻觉的挑战我们提出了 Multimodal-CoT它将语言文本和视觉图像模态合并到一个两阶段框架中将基本原理生成和答案推理分开。 通过这种方式答案推理可以更好地利用基于多模态信息生成的基本原理。 我们的实验是在 ScienceQA 基准测试上进行的Lu 等人2022a)这是带有注释推理链的最新多模态推理基准。实验结果表明我们的方法超越了之前最先进的 GPT-3.5 模型 16%75.17%→基准为91.68。我们的贡献总结如下 (i) 据我们所知这项工作是第一个以不同方式研究 CoT 推理的工作。 (ii) 我们提出了一个两阶段框架通过微调语言模型来融合视觉和语言表示来执行 Multimodal-CoT。该模型能够生成信息丰富的基本原理以方便推断最终答案。 (iii) 我们的方法在 ScienceQA 基准上实现了新的最先进的性能比 GPT-3.5 的准确性高出 16%甚至超过了人类的表现。 2背景 本节回顾了通过提示和微调语言模型来引发 CoT 推理的最新进展。 2.1使用LLM的COT推理 最近CoT 已被广泛用于激发法学硕士的多步推理能力Wei 等人2022b)。具体来说CoT 技术鼓励法学硕士生成中间推理链来解决问题。研究表明法学硕士可以使用两种主要的技术范式进行 CoT 推理零射击 CoT Kojima 等人2022年和几个射击Wei等人2022b;张等人2022年)。对于零射击 CoTKojima 等人。 2022年) 通过在测试问题后添加“让我们一步一步思考”之类的提示来调用 CoT 推理表明 LLM 是不错的零样本推理机。对于Few-Shot-CoT使用一些逐步的推理演示作为推理的条件。每个演示都有一个问题和一个导致最终答案的推理链。演示通常是通过手工制作或自动生成获得的。因此相应的技术被称为 Manual-CoT Wei 等人2022b) 和 Auto-CoT Zhang 等人2022年)。 通过有效的演示Few-Shot-CoT 往往能取得比 Zero-Shot-CoT 更强的性能并吸引了更多的研究兴趣。因此最近的研究主要集中在如何改进Few-Shot-CoT。这些研究分为两个主要研究方向i优化演示 (ii) 优化推理链。表1比较了典型的 CoT 技术。 优化演示 Few-Shot-CoT 的性能依赖于演示的质量。正如 Wei 等人报道的那样。 2022b)使用不同注释者编写的演示会导致符号推理任务中出现巨大的准确性差异。除了手工制作演示外最近的研究还研究了优化演示选择过程的方法。值得注意的是Rubin 等人。 2022年) 检索了与测试实例语义相似的演示。然而当推理链中出现错误时这种方法会表现出性能下降Zhang 等人2022年)。为了解决这一限制Zhang 等人。 2022年)发现关键是演示问题的多样性并提出了 Auto-CoT(i) 将给定数据集的问题划分为几个集群 (ii) 从每个集群中采样一个代表性问题并使用带有简单启发式的 Zero-Shot-CoT 生成其推理链。此外还提出了强化学习RL和基于复杂性的选择策略以获得有效的演示。 Fu 等人。 2022年)选择了推理链复杂即推理步骤较多的例子作为演示。 Lu 等人。 2022b培训了一个代理商从候选池中找到最佳的文本示例并在与GPT-3.5互动时在给定培训示例中最大化预测奖励。 优化推理链 优化推理链的一种值得注意的方法是问题分解。 周等人。 2022年)提出了从最小到最大的提示将复杂问题分解为子问题然后依次解决这些子问题。因此先前解决的子问题的答案有助于解决给定的子问题。同样Khot 等人。 2022年)使用不同的分解结构并设计不同的提示来回答每个子问题。除了以自然语言文本提示推理链之外Chen 等人。 2022年) 提出了思维程序 (PoT)它将推理过程建模为程序并提示法学硕士通过执行生成的程序来得出答案。另一个趋势是对测试问题的多个推理路径进行投票。 王等人。 2022a) 引入了一种自一致性解码策略来对 LLM 的多个输出进行采样然后获得最终答案的多数。 王等人。 2022b) 和 Li 等人。 2022b)在输入空间中引入随机性以产生更多样化的投票输出。 2.2通过微调模型引发 CoT 推理 最近的一个兴趣是通过微调语言模型来引发 CoT 推理。 Lu 等人。 2022a) 使用 CoT 注释在大规模数据集上微调编码器-解码器 T5 模型。然而当使用 CoT 来推断答案时即在答案之前生成推理链推理时会观察到性能急剧下降。相反CoT 仅用作答案后的解释。 Magister 等人。 2022年) 和 Ho 等人。 2022年) 通过根据较大的教师模型生成的思想链输出对学生模型进行微调从而采用知识蒸馏。所提出的方法在算术、常识和符号推理任务中显示出性能提升。 将 1B 模型训练为 CoT 推理器存在一个关键挑战。正如 Wei 等人所观察到的。 2022b低于1000亿个参数的模型往往会产生不合逻辑的婴儿从而导致错误的答案。换句话说比直接生成答案1B模型生成有效的COT可能更难。在多模式环境中回答问题还需要了解多模式输入的情况变得更加具有挑战性。在下一部分中我们将探讨多模式-COT的挑战并研究如何执行有效的多步推理。 3多模式-COT的挑战 现有研究表明CoT 推理能力可能会出现在一定规模的语言模型中例如超过 1000 亿个参数Wei 等人2022a)。然而在 1B 模型中引发这种推理能力仍然是一个尚未解决的挑战更不用说在多模态场景中了。这项工作重点关注 1B 模型因为它们可以使用消费级 GPU例如 32G 内存进行微调和部署。 在本节中我们将研究 1B 模型在 CoT 推理中失败的原因并研究如何设计一种有效的方法来克服这一挑战。 3.1致力于COT的角色 首先我们对ScienceQA基准的COT推理进行微调Lu等2022a)。按照 Lu等。 2022a我们采用unifiedqa  Khashabi等人2020年在模型在输入中获取文本信息并生成输出序列 这包括理由和答案。作为图中所示的示例 1 该模型采用 问题文本q的代币上下文文本c和多个选项M的串联作为输入。为了研究COT的效果我们将性能与三种变体进行了比较i直接预测答案QCM →A; (ii) 答案推理以基本原理为条件的推理 (QCM→RA; iii解释基本原理用于解释答案推理QCM→增强现实。 表2COT在一个阶段设置中的影响。 方法格式准确性禁止质量控制模块→A80.40推理质量控制模块→RA67.86解释质量控制模块→增强现实69.77 图2用于生成基本原理和预测答案的不带视觉特征基线和带视觉特征我们的的两阶段框架示例。上半部分展示了带有黄金原理的问题细节下半部分显示了基线的输出以及我们与视觉特征相结合的方法。我们观察到由于幻觉原理的误导基线未能预测正确的答案。更多示例请参见附录A.1。 令人惊讶的是我们观察到↓12.54的精度降低80.40→67.86%如果模型在答案之前预测基本原理QCM→RA。结果表明基本原理可能不一定有助于预测正确答案。 Lu 等人也观察到了类似的现象。 2022a)其中可能的原因可能是模型在获得所需答案之前超出了最大令牌限制或提前停止生成预测。然而我们发现生成的输出RA的最大长度始终小于 400 个 token这低于语言模型的长度限制即 UnifiedQA 中的 512。 因此值得更深入地研究为什么其理由会损害答案推理。 3.2幻觉的理由误导 为了深入了解基本原理如何影响答案预测我们将 CoT 问题分为两个阶段基本原理生成 和 回答推理。我们分别报告基本原理生成和答案推理的 RougeL 分数和准确性。表3显示了基于两阶段框架的结果。尽管两阶段基线模型的推理生成 RougeL 得分为 91.76但答案推理准确率仅为 70.53%。与QCM相比→表中的一个变体80.40%2结果表明两阶段框架中生成的基本原理并没有改善答案准确性。 表3(i) 基本原理生成 (RougeL) 和 (ii) 答案推理 (Accuracy) 的两阶段设置。 方法(一) 质量控制模块→右(ii) QCMR→A两阶段框架91.7670.53 带字幕91.8571.12 带视觉功能96.9784.91 然后我们随机采样了 50 个错误案例发现模型倾向于生成误导答案推断的幻觉原理。如图2所示的示例模型左侧部分幻想“一个物体的南极由于缺乏对视觉内容的参考磁铁最接近另一个磁铁的南极”。 我们发现此类错误在错误案例中的比例为 64%图3(a)。 图3幻觉错误率 (a) 和视力特征纠正率 (b)。 图4我们的 Multimodal-CoT 框架概述。 Multimodal-CoT 包含两个阶段(i) 基本原理生成和 (ii) 答案推理。两个阶段共享相同的模型架构但输入和输出不同。在第一阶段我们向模型提供语言和视觉输入以生成基本原理。在第二阶段我们将原始语言输入附加到第一阶段生成的基本原理。然后我们将更新后的语言输入与原始视觉输入一起输入模型以推断答案。 3.3多模态有助于有效的理论依据 我们推测这种幻觉现象是由于缺乏执行有效的 Multimodal-CoT 所需的视觉环境造成的。要注入视觉信息一种简单的方法是将配对图像转换为标题Lu et al., 2022a) 然后将标题附加到两个阶段的输入中。然而如表 3 所示使用字幕只能带来边际性能提升 (↑0.59%。然后我们通过将视觉特征融入到语言模型中来探索一种先进的技术。具体来说我们将配对图像输入 DETR 模型Carion 等人2020年) 提取视觉特征。然后我们将视觉特征与编码的语言表示融合然后再馈送到解码器更多详细信息将在第 4 节中介绍。有趣的是有了视觉特征推理生成的 RougeL 分数提升到了 96.97%QCM→R)相应地有助于提高 84.91% 的答案准确性 (QCMR→A)。 有了这些有效的理据幻觉现象得到缓解——第3.2节中62.5%的幻觉错误已得到纠正图3(b))如图2右部分所示。4 迄今为止的分析令人信服地表明视觉特征确实有利于生成有效的理由并有助于准确的答案推理。作为两阶段方法QCMR→表中的A)3比表2中的所有单阶段方法获得了更好的性能我们在 Multimodal-CoT 框架中选择两阶段方法。 4多式联运CoT 根据第 3 节中的观察和讨论我们提出 Multimodal-CoT 来合并语言文本和视觉图像模态分为两阶段框架。在本节中我们将首先概述框架的流程然后详细阐述模型架构的技术设计。 4.1框架概述 Multimodal-CoT 包含两个训练阶段(i) 基本原理生成和 (ii) 答案推理。两个阶段共享相同的模型架构但输入不同和输出是。整体流程如图 4 所示。我们将以 Vision-Language 为例来展示 Multimodal-CoT 的工作原理。 在基本原理生成阶段我们为模型提供{语言1,想象}在哪里语言1代表第一阶段的语言输入想象代表视觉输入即图像。例如 可以实例化为多项选择推理问题的问题、上下文和选项的串联Lu 等人2022a)如图4。目标是学习基本原理生成模型右在哪里右是基本原理。 在答案推理阶段推理右附加到原始语言输入语言1构建第二阶段的语言输入语言2语言1∘右在哪里∘表示串联。然后我们提供更新后的输入′{语言2,想象}到答案推理模型来推断出最终答案′。 在这两个阶段我们独立训练具有相同架构的两个模型。他们采用带注释的元素例如→右,右→分别来自监督学习的训练集。在推理过程中给定使用第一阶段训练的模型生成测试集的基本原理它们在第二阶段用于答案推理。 4.2模型架构 给定语言输入语言ε{语言1,语言2}和视觉输入想象我们计算生成目标文本的概率是图 4中的基本原理或答案长度氮经过 是|语言,想象∏我1氮是我∣语言,想象,是我,(1) 在哪里是我∣语言,想象,是我 使用基于 Transformer 的网络实现Vaswani 等人2017年)。网络具有三个主要过程编码、交互和解码。具体来说我们将语言文本输入 Transformer 编码器以获得文本表示然后将其与视觉表示进行交互和融合然后输入 Transformer 解码器。 编码 该模型接受语言和视觉输入并获得文本表示语言和图像特征想象通过以下功能 语言语言编码器语言,(2)想象瓦⋅视觉提取器想象,(3) 其中语言编码器⋅作为 Transformer 模型实现。我们使用 Transformer 编码器中最后一层的隐藏状态作为语言表示语言εℝ×在哪里表示语言输入的长度并且是隐藏维度。 同时VisionExtractor⋅) 用于将输入图像矢量化为视觉特征。受到 Vision Transformers 最近成功的启发Dosovitskiy 等人2021年)我们通过现成的视觉提取模型获取块级特征5 例如 DETR Carion 等人2020年)。获得块级视觉特征后我们应用可学习的投影矩阵瓦来转换形状视觉提取器想象进入那个语言;因此我们有想象εℝ米×在哪里米是补丁的数量。 算法 1 多模式-CoT 1语言输入语言1, 视觉输入想象 2产生的理由右, 推断答案 3构造输入{语言,想象} 4产生理由右使用模型⋅ 5附上理由右到原始语言输入语言2语言1∘右。 6构建新的输入′{语言2,想象} 7推断答案通过调节新的输入′。 8 程序F(  9    对语言和视觉输入进行编码语言和想象 分别 10    通过注意力建立语言和视觉特征之间的交互想象收件人 11    保险丝语言和想象收件人通过门控融合机制保险丝 12    喂养保险丝到解码器以获得目标预测是 13     返回 是 14 结束 程序  相互作用 获得语言和视觉表示后我们使用单头注意网络将文本标记与图像补丁相关联其中查询 钥匙 和值 是语言,想象和想象 分别。注意力输出想象收件人εℝ×定义为 想象收件人软最大⊤,(4) 在哪里与 的维度相同语言因为使用的是单头。 然后我们应用门控融合机制Zhang 等人2020年;吴等人2021年;李等人2022a)融合语言和想象。融合输出保险丝εℝ×是通过以下方式获得的 乙状结肠瓦我语言瓦想象收件人,(5)保险丝1-⋅语言⋅想象收件人,(6) 在哪里瓦我和瓦是可学习的参数。 解码 最后融合输出保险丝被输入 Transformer 解码器来预测目标是。 Multimodal-CoT 的完整流程如算法1所示。 表 4主要结果 (%)。尺寸 主干模型尺寸。问题类别NAT 自然科学、SOC 社会科学、LAN 语言科学、TXT 文本上下文、IMG 图像上下文、NO 无上下文 G1-6 1-6 年级G7-12 7-12 年级。除我们之外的结果均来自Lu 等人。 2022a)。 第 1 部分人类表现第 2 部分VQA 基线第 3 部分UnifiedQA 基线第 4 部分GPT-3.5 基线第 5 部分我们的 Multimodal-CoT 结果。 粗体结果是最佳性能。 模型尺寸网络地址转换SOC局域网TXT免疫组化不G1-6G7-12 平均人类-90.2384.9787.4889.6087.5088.1091.5982.4288.40MCAN (Yu 等人, 2019年95M56.0846.2358.0959.4351.1755.4051.6559.7254.54自上而下(Anderson 等人, 2018年70M59.5054.3361.8262.9054.8859.7957.2762.1659.02禁令(Kim 等人, 2018年112M60.8846.5766.6462.6152.6065.5156.8363.9459.37DFAF (高等人, 2019年74M64.0348.8263.5565.8854.4964.1157.1267.1760.72ViLT (Kim 等人, 2021年113M60.4863.8960.2763.2061.3857.0060.7261.9061.14补丁 TRM (Lu 等人, 2021年90M65.1946.7965.5566.9655.2864.9558.0467.5061.42VisualBERT (Li 等人, 2019年111M59.3369.1861.1862.7162.1758.5462.9659.9261.87统一质量保证 (Khashabi 等人, 2020年223M68.1669.1874.9163.7861.3877.8472.9865.0070.12统一质量保证 与 CoT (Lu 等人, 2022a223M71.0076.0478.9166.4266.5381.8177.0668.8274.11GPT-3.5 (Chen 等人, 2020年175B74.6469.7476.0074.4467.2877.4276.8068.8973.97GPT-3.5 w/ CoT (Lu 等人, 2022a175B75.4470.8778.0974.6867.4379.9378.2369.6875.17多模式CoT223M87.5277.1785.8287.8882.9086.8384.6585.3784.91多模式CoT738M95.9182.0090.8295.2688.8092.8992.4490.3191.68 表 5Multimodal-CoT 的消融结果。 模型网络地址转换SOC局域网TXT免疫组化不G1-6G7-12 平均多式联运CoT87.5277.1785.8287.8882.9086.8384.6585.3784.91 没有两阶段框架80.9987.4081.9180.2578.8383.6282.7882.2082.57 不带视觉功能71.0970.7569.1871.1665.8471.5771.0069.6870.53 5实验 本节将介绍基准数据集、我们技术的实现以及比较的基线。然后我们将报告我们的主要结果和发现。 5.1数据集 我们的方法在 ScienceQA 基准上进行评估Lu 等人2022a)。 ScienceQA 是第一个大规模多模式科学问题数据集它通过详细的讲座和解释来注释答案。它包含 21,000 道多模态多项选择题涵盖 3 个学科、26 个主题、127 个类别和 379 项技能具有丰富的领域多样性。基准数据集分为训练、验证和测试部分分别包含 12726、4241 和 4241 个示例。 5.2执行 以下部分介绍 Multimodal-CoT 的实验设置和基线方法。 实验设置 由于 Multimodal-CoT 任务需要生成推理链并利用视觉特征因此我们使用 T5 编码器-解码器架构Raffel 等人2020年)。具体来说我们采用 UnifiedQA Khashabi 等人2020年) 在两个阶段初始化我们的模型因为它在 Lu 等人中实现了最佳微调结果。 2022a)。为了验证我们的方法在不同 LM 中的通用性我们还采用了 FLAN-T5 Chung 等人2022年) 作为第 6.3 节的主干。由于在第 3.3 节中使用图像标题不会产生显着的性能提升因此我们没有使用标题。我们将模型微调最多 20 个 epoch学习率为 5e-5。最大输入序列长度为 512。基础模型和大型模型的批量大小分别为 16 和 8。我们的实验在 4 个 NVIDIA Tesla V100 32G GPU 上运行。 基线模型 以下Lu 等人。 2022a)我们的基准包括 (i) 视觉问答 (VQA) 模型Anderson 等人2018年;金等人2018年;余等人2019年;高等人2019年;金等人2021年;卢等人2021年;李等人2019年); (ii) 文本到文本的语言模型。 卡沙比等人2020年); (iii) GPT-3.5 模型Chen 等人2020年)。更多详情请参见附录B.1。 5.3主要结果 表4显示了主要结果。多模式-CoT优于 GPT-3.5 16.51% (75.17%→91.68%并超越了人类的表现。具体来说在 8 个问题类别中Mutimodal-CoT达到 21.37% (67.43%→对于具有配对图像 (IMG) 的问题性能提升 88.80%。与利用上下文中的图像说明提供视觉语义的现有 UnifiedQA 和 GPT-3.5 方法相比结果表明使用图像特征更有效。此外根据表 5 中的消融研究结果我们的两阶段框架有助于取得优异的结果。总的来说结果验证了多模态的有效性以及通过我们的两阶段框架使用 1B 模型实现 CoT 推理的潜力。 6分析 以下分析将研究 Multimodal-CoT 的工作原理并讨论影响因素和限制。除非另有说明我们使用基本尺寸下的模型进行分析。 pt1pt2pt3pt4pt5pt6pt7pt8pt9pt10pt40pt50pt60pt70pt80pt90ptEpochptAccuracyOne-stage BaselineOne-stage MultimodalTwo-Stage BaselineTwo-Stage Multimodal 图5No-CoT 基线和 Multimodal-CoT 变体跨时期的准确度曲线。 6.1多模态促进融合 图5展示了基线和Multimodal-CoT在不同训练epoch下的评估精度曲线。 “单级”基于QCM→表中实现最佳性能的输入输出格式2“两阶段”是我们的两阶段框架。我们发现与无需 CoT 直接生成答案的单阶段基线相比两阶段方法在开始时获得了相对较高的准确度。然而如果没有视觉特征随着训练的进行由于低质量的基本原理两阶段基线无法产生更好的结果如第 3。相比之下 使用视觉特征有助于生成更有效的原理有助于提高我们的两阶段多模态变体的答案准确性。 6.2使用不同的视觉特征 不同的视觉特征可能会影响模型的性能。我们比较了三种广泛使用的视觉特征类型CLIP Radford 等人2021年)DETR Carion 等人2020年) 和 ResNet He 等人2016年)。 CLIP 和 DETR 是类似补丁的功能其中 DETR 基于对象检测。对于ResNet特征我们将ResNet-50的池化特征与文本序列重复相同的长度以模仿类补丁特征其中每个补丁与池化图像特征相同。有关视觉功能的更多详细信息请参见附录B.2。 表 6使用不同视觉特征的准确度%。 方法一级两级 带夹子81.2184.81 带 DETR82.5784.91 带 ResNet80.9784.77 表6显示了视觉特征的比较结果。我们观察到使用视觉特征通常比仅使用语言基线获得更好的性能。具体来说DETR总体上取得了相对较好的性能。因此我们在Multimodal-CoT中默认使用DETR。 6.3跨骨干模型的总体有效性 为了测试我们的方法对其他骨干模型的好处的普遍性我们将底层 LM 更改为不同大小或类型的其他变体。如表7所示我们的方法对于广泛使用的骨干模型通常是有效的。 表 7不同主干语言模型的准确率 (%)。 方法尺寸仅语言多模式CoT统一质量保证223M80.4084.91统一质量保证738M83.6091.68法兰-T5248M83.4285.85法兰-T5783M85.1993.02 6.4误差分析 为了更好地理解 Multimodal-CoT 的行为并促进未来的研究我们手动调查由我们的方法生成的随机选择的示例。表8总结了Multimodal-CoT生成的分类结果。我们随机抽取了 50 个答案正确的样本和 50 个答案不正确的样本。附录C中提供了每个类别的相应示例。 表8Multimodal-CoT 的分类分析。 回答交易费用类别百分比 正确的科特是正确的90科特不正确10不正确常识性错误82逻辑错误12科特是正确的6 我们发现正确的样本即答案正确包含一定量的错误思路10%。结果表明CoT 可能并不总是有利于答案推理并且该模型在某种程度上是鲁棒的——它可以通过忽略不正确的理由来预测正确的答案。对于不正确的样本即答案不正确CoT 中的常识性错误是最常见的错误类型 (88%)。当回答需要常识知识的问题时模型经常犯常识性错误例如理解地图和计算图像中的数字图9并利用字母表图10。另一类错误是逻辑错误12%推理链存在矛盾图11。此外有些案例的 CoT 正确6%但答案不正确但可能与答案选项不一定相关图 12。 分析表明未来研究有前瞻性的方向。可以通过以下方式改进 Multimodal-CoTi结合更多信息丰富的视觉特征并改进语言视觉交互使其能够理解地图和计数 (ii) 注入常识性知识 (iii)应用过滤机制例如仅使用有效的CoT来推断答案并去除不相关的CoT。 7结论 我们正式研究多模态 CoT 问题。我们提出了 Multimodal-CoT它将语言和视觉模态合并到一个两阶段框架中将基本原理生成和答案推理分开因此答案推理可以更好地利用多模态信息生成的基本原理。通过 Multimodal-CoT我们证明我们的方法在 ScienceQA 基准上的准确度比 GPT-3.5 高出 16 个百分点。我们的错误分析表明在未来的研究中有可能利用更有效的视觉特征、注入常识知识并应用过滤机制来改进 CoT 推理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/85289.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

企业精髓八个字关键词 优化 网站

C 变量作用域 一般来说有三个地方可以定义变量: 在函数或一个代码块内部声明的变量,称为局部变量。在函数参数的定义中声明的变量,称为形式参数。在所有函数外部声明的变量,称为全局变量。 作用域是程序的一个区域,…

宝山网站建设哪家好网页制作模板 html

点project 关闭防火墙才可以让别人访问自己 转载于:https://www.cnblogs.com/feathe/p/6853491.html

上海专业网站建设流程东莞关键词排名提升

工作中能提升效率也都是大家所想的,对于设计师的一个设计过程中,可能想怎么样可以更快呀,是哪个步骤慢了呢? 这样的结果只能说会很多,但是建模这个步骤,肯定是有多无少的。 为了让模型更加逼真&#xff0c…

门户网站建设背景wordpress新增用户字段

一个配置恰当的mongodb 分片集群不会有单点失效。 本章节描述了集群服务器中可能出现的故障,及相应的对策。 1. 某个mongos路由进程故障 每一个mongos会运行每一台应用服务器上面,该应用服务器只能通过这个mongos进程和集群进行通信。mongos进程不是…

网站开发建设技术规范书军事新闻今天

CSDN每日一练 |『生命进化书』『订班服』『c++难题-大数加法』2023-09-06 一、题目名称:生命进化书二、题目名称:订班服三、题目名称:c++难题-大数加法一、题目名称:生命进化书 时间限制:1000ms内存限制:256M 题目描述: 小A有一本生命进化书,以一个树形结构记载了所有生…

中国铁道工程建设协会查证网站购物网站首页源码

zookeeper 集群 1、zookeeper 集群说明 initLimit 是Zookeeper用它来限定集群中的Zookeeper服务器连接到Leader的时限 syncLimit 限制了follower服务器与leader服务器之间请求和应答之间的时限 服务器名称与地址:集群信息(服务器编号,服务器…

自动做标题网站南通seo网站排名优化

联系前面所学的知识我们知道,移动性管理主要分为两大类:空闲状态下的移动性管理、连接状态下的移动性管理。我们今天来详细了解他们的工作原理~ 目录 移动性管理分类 1、空闲状态下的移动性管理 2、连接状态下的移动性管理 手机选择天线的原则 4G天…

网站建设制作专业开发定制中国百年建筑网官网

服务器数据恢复环境: 服务器使用磁盘柜RAID卡搭建了一组riad5磁盘阵列。服务器上层分配了一个LUN,划分了两个分区:sdc1分区和sdc2分区。通过LVM扩容的方式,将sdc1分区加入到了root_lv中;sdc2分区格式化为XFS文件系统。…

python 做网站开发个人网站转为企业网站

昨天在知乎上刷到一个热门问题:程序员需要达到什么水平才能顺利拿到 20k 无压力?其中一个最热门的回答是:“其实,无论你是前端还是后端、想进大厂还是拿高薪,算法都一定很重要。”为什么,算法会如此重要?不…

flash型的著名网站网站增加栏目费用

简介 SVM是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。或者简单的可以理解为就是在高维空间中寻找一个合理的超平面将数据点分隔开来…

望京网站建设单位邮箱怎么申请

点击蓝字关注我们因公众号更改推送规则,请点“在看”并加“星标”第一时间获取精彩技术分享来源于网络,侵删1、分治法概念:将一个难以直接解决的大问题,分割成一些规模较小的相同问题,以便各个击破,分而治之…

网站建设维护保密协议杭州it外包公司

崩溃报告结构如下,每个部分都包含可帮助定位崩溃位置的信息: 1. Header 描述崩溃发生的环境,包含设备、系统、时间、版本等信息。如: Incident Identifier: 6156848E-344E-4D9E-84E0-87AFD0D0AE7B CrashReporter Key: 76f2fb…

深圳一百讯网站建设做电商网站搭建就业岗位

设计模式——七大设计原则 1、单一职责原则(SRP)2、开放封闭原则(OCP)3、依赖倒转原则(DIP)4、里氏替换原则 (LSP)5、接口隔离原则 (ISP)6、合成/聚合复用原则 (CARP)7、迪米特法则 (LoD) 了解 设计模式 的…

宁海县建设局网站一个网站的后台怎么做

大多数人在使用电脑时都可能会遇到误删文件的情况。一不小心,重要的文件或数据就消失了,情急之下,大多会感到慌乱和无助。但其实,文件误删除并非不可挽回的灾难。本文将为大家介绍几种有效的文件恢复方法,以帮助大家在…

网站快速盈利免费网站收录入口

https://link.springer.com/article/10.1007/s42452-019-0989-z 描述了构建零知识区间证明(ZKRP)的不同策略,例如2001年Boudot提出的方案;2008年Camenisch等人提出的方案;以及2017年提出的Bulletproofs。 Introducti…

国外服装图案设计网站网站用户登录流程图

SetConsoleCursorPosition是一个计算机函数,如果用户定义了 COORD pos,那么pos其实是一个结构体变量,其中X和Y是它的成员, 通过修改pos.X和pos.Y的值就可以实现光标的位置控制。 复制粘贴运行一下,你就明白代码什么意…

姑苏网站建设345诛仙网站是谁做的

在图像分类任务中,针对单个图片得到100%的准确率是有可能但极其罕见的,并且不代表模型在整个测试集上也能达到100%的准确率。   针对单个图片获得100%准确率的情况可能包括以下几种情形: 图片本身特殊性: 如果测试集中的某张图片在训练集中…

济南集团网站建设费用wordpress app发表

并发计算机用户想当然地认为他们的系统一次可以做不止一件事,他们设想他们可以继续在文字处理器中工作,而其他应用程序则下载文件、管理打印队列和流音频,即使是单个应用程序通常也希望一次完成多个任务。例如,流式音频应用程序必…

网站建设龙采科技dm建站系统

目录 1 前言2 HTML2.1 元素(Element)2.1.1 块级元素和内联(行级)元素2.1.2 空元素 2.2 html页面的文档结构2.3 常见标签使用2.3.1 注释2.3.2 标题2.3.3 段落2.3.4 列表2.3.5 超链接2.3.6 图片2.3.7 内联(行级)标签2.3.8 换行 2.4 属性2.4.1 布尔属性 2.5 实体引用2.6 空格2.7 D…

广东专业做网站排名哪家好宁城网站建设公司

这是Python程序开发系列原创文章,我的第198篇原创文章。 一、问题 对于表格数据,一套完整的机器学习建模流程如下: 针对不同的数据集,有些步骤不适用即不需要做,其中橘红色框为必要步骤,由于数据质量较高&…