【DeepMLF】具有可学习标记的多模态语言模型，用于情感分析中的深度融合

这是一篇我完全看不懂的论文，写的好晦涩，适合唬人，所以在方法部分我以大白话为主

abstract

在多模态情感分析（MSA）中，多模态融合已经得到了广泛的研究，但融合深度和多模态容量分配的作用还没有得到充分的研究。在这项工作中，我们将融合深度、可扩展性和专用多模容量作为有效融合的主要因素。本文介绍了DeepMLF，一种新的多模态语言模型（LM），该模型具有面向深度融合的可学习标记.

DeepMLF利用视听编码器和预训练的解码器LM，在其各层中增加了多模态信息。我们将可学习的标记附加到LM，以：1）以受控的方式捕获模态交互; 2）为每个模态保留独立的信息流。这些融合标记通过LM块中的因果自注意来收集语言信息，并通过交叉注意MM块与视听信息整合。作为专用的多模式容量，该设计支持跨多个层的渐进式融合，提供融合过程的深度。我们的训练方法结合了特定模态损失和语言建模损失，解码器LM的任务是预测标签真实极性。在具有不同数据集特征的三个MSA基准测试中，DeepMLF实现了最先进的性能。我们的结果证实，融合深度越深，性能越好，最佳融合深度（5-7）超过了现有方法。此外，我们对融合令牌数量的分析表明，较小的令牌集（≈ 20）可获得最佳性能。我们通过视听编码器初始化实验来检验表示学习顺序（融合课程）的重要性。我们的消融研究证明了所提出的融合设计和门控的优越性，同时提供了DeepMLF对LLM的可扩展性的整体检查，以及每个训练目标和嵌入正则化的影响。

连摘要都写的如此晦涩

现有技术：多模态融合（比如同时分析语音、表情、文字）已经被广泛研究，但有两个问题没解决清楚：
融合深度（不同模态的信息应该在神经网络的哪几层进行融合？深层还是浅层？）
容量分配（如何给不同模态分配计算资源？比如是否要让语音单独处理一部分信息）

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

关键设计：
可学习的融合标记：在语言模型（比如类似GPT的文本模型）中加入一些"灵活的小开关"，这些开关能：
控制不同模态（语音、视觉、文字）的交互程度
让每个模态保留独立的信息流（避免强行融合导致信息混乱）

分层渐进融合：在语言模型的多个层级（5-7层）逐步融合多模态信息（类似人类先听声音，再看表情，最后综合理解情绪）
专用多模态计算模块：新增一个交叉注意力模块，专门处理语音和视觉信息与文本的关联

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

在三个不同数据集上表现最优（SOTA），证明：
深层融合（5-7层）比浅层融合效果好
融合标记数量并非越多越好（约20个最佳）
训练策略很重要：先单独训练各模态编码器，再联合训练（类似先学单科再综合考试）
模型可扩展到大型语言模型（LLM），说明方法具有通用性

intro

（从人类认知到研究领域，从普遍到具体；以人类多模态感知的自然现象为起点，引出多模态机器学习MML的核心目标：模仿人类认知，开发能集成多模态数据的系统，强调多模态融合是MML的技术关键，并分类为早期/晚期/混合/深度融合，指出深度融合的优势，但现有研究对齐探索不足）

人类感知并联合收割机来自不同来源和感官的信息，以理解周围环境并与之互动。多模态信号和表示也被人类大脑在学习概念时使用。因此，我们可以说，多模态跨越了整个人类认知过程。多模态机器学习（MML）研究如何开发能够处理和集成异构和互连类型的数据（如视觉，听觉和文本信息）的系统或代理。该领域的目标涉及系统的设计，理解，推理，并通过多种感官形式从世界中学习，例如，语言和非语言交流以及对场景的理解。

从通过语音和语言识别情感到从文本生成图像，基本操作是多模态融合[1]。从技术上讲，融合是学习表征的问题，这些表征既捕获单峰信息，又捕获不同模态元素之间的跨模态交互。从概念上讲，与更异构的模态相比，更同质的模态更容易联合收割机。融合技术可以大致分为早期、晚期、混合和深度融合方法。早期融合结合早期阶段的数据，后期融合在最后阶段，和混合融合结合这些方案。深度融合通常涉及架构内的多个融合阶段。

最近在MML领域的工作采用深度融合方案来利用多模态的优点。从ViLBERT [2]和UNITER [3]的自监督方法到基于多模态大语言模型（LLM）的方法[4]、[5]，在若干层上执行融合，例如，UNITER为24。然而，对于纯监督的多模态任务，例如对以人为中心的视频剪辑的情感理解，所使用的融合机制相当肤浅。特别地，它们通常涉及将预先训练的架构与浅层融合机制相结合。

（问题定位，现有研究的不足，领域聚焦缩小到多模态情感分析，

批判现状：

1.融合深度不足，当前MSA方法融合机制“肤浅”，如仅3层，而其他MML任务，如ViLBERT已用深度融合

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/80109.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！