【DeepMLF】具有可学习标记的多模态语言模型,用于情感分析中的深度融合

这是一篇我完全看不懂的论文,写的好晦涩,适合唬人,所以在方法部分我以大白话为主

abstract

在多模态情感分析(MSA)中,多模态融合已经得到了广泛的研究,但融合深度和多模态容量分配的作用还没有得到充分的研究。在这项工作中,我们将融合深度、可扩展性和专用多模容量作为有效融合的主要因素。本文介绍了DeepMLF,一种新的多模态语言模型(LM),该模型具有面向深度融合的可学习标记.

DeepMLF利用视听编码器和预训练的解码器LM,在其各层中增加了多模态信息。我们将可学习的标记附加到LM,以:1)以受控的方式捕获模态交互; 2)为每个模态保留独立的信息流。这些融合标记通过LM块中的因果自注意来收集语言信息,并通过交叉注意MM块与视听信息整合。作为专用的多模式容量,该设计支持跨多个层的渐进式融合,提供融合过程的深度。我们的训练方法结合了特定模态损失和语言建模损失,解码器LM的任务是预测标签真实极性。在具有不同数据集特征的三个MSA基准测试中,DeepMLF实现了最先进的性能。我们的结果证实,融合深度越深,性能越好,最佳融合深度(5-7)超过了现有方法。此外,我们对融合令牌数量的分析表明,较小的令牌集(≈ 20)可获得最佳性能。我们通过视听编码器初始化实验来检验表示学习顺序(融合课程)的重要性。我们的消融研究证明了所提出的融合设计和门控的优越性,同时提供了DeepMLF对LLM的可扩展性的整体检查,以及每个训练目标和嵌入正则化的影响。

连摘要都写的如此晦涩

  • 现有技术:多模态融合(比如同时分析语音、表情、文字)已经被广泛研究,但有两个问题没解决清楚:
    1. ​融合深度​​(不同模态的信息应该在神经网络的哪几层进行融合?深层还是浅层?)
    2. ​容量分配​​(如何给不同模态分配计算资源?比如是否要让语音单独处理一部分信息)

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

  • 关键设计​​:
  • ​可学习的融合标记​​:在语言模型(比如类似GPT的文本模型)中加入一些"灵活的小开关",这些开关能:
    • 控制不同模态(语音、视觉、文字)的交互程度
    • 让每个模态保留独立的信息流(避免强行融合导致信息混乱)
  • ​分层渐进融合​​:在语言模型的多个层级(5-7层)逐步融合多模态信息(类似人类先听声音,再看表情,最后综合理解情绪)
  • ​专用多模态计算模块​​:新增一个交叉注意力模块,专门处理语音和视觉信息与文本的关联

#+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

  • 在三个不同数据集上表现最优(SOTA),证明:
    • 深层融合(5-7层)比浅层融合效果好
    • 融合标记数量并非越多越好(约20个最佳)
    • 训练策略很重要:先单独训练各模态编码器,再联合训练(类似先学单科再综合考试)
    • 模型可扩展到大型语言模型(LLM),说明方法具有通用性

intro

(从人类认知到研究领域,从普遍到具体;以人类多模态感知的自然现象为起点,引出多模态机器学习MML的核心目标:模仿人类认知,开发能集成多模态数据的系统,强调多模态融合是MML的技术关键,并分类为早期/晚期/混合/深度融合,指出深度融合的优势,但现有研究对齐探索不足)

人类感知并联合收割机来自不同来源和感官的信息,以理解周围环境并与之互动。多模态信号和表示也被人类大脑在学习概念时使用。因此,我们可以说,多模态跨越了整个人类认知过程。多模态机器学习(MML)研究如何开发能够处理和集成异构和互连类型的数据(如视觉,听觉和文本信息)的系统或代理。该领域的目标涉及系统的设计,理解,推理,并通过多种感官形式从世界中学习,例如,语言和非语言交流以及对场景的理解。

从通过语音和语言识别情感到从文本生成图像,基本操作是多模态融合[1]。从技术上讲,融合是学习表征的问题,这些表征既捕获单峰信息,又捕获不同模态元素之间的跨模态交互。从概念上讲,与更异构的模态相比,更同质的模态更容易联合收割机。融合技术可以大致分为早期、晚期、混合和深度融合方法。早期融合结合早期阶段的数据,后期融合在最后阶段,和混合融合结合这些方案。深度融合通常涉及架构内的多个融合阶段。

最近在MML领域的工作采用深度融合方案来利用多模态的优点。从ViLBERT [2]和UNITER [3]的自监督方法到基于多模态大语言模型(LLM)的方法[4]、[5],在若干层上执行融合,例如,UNITER为24。然而,对于纯监督的多模态任务,例如对以人为中心的视频剪辑的情感理解,所使用的融合机制相当肤浅。特别地,它们通常涉及将预先训练的架构与浅层融合机制相结合。

(问题定位,现有研究的不足,领域聚焦缩小到多模态情感分析,

批判现状:

1.融合深度不足,当前MSA方法融合机制“肤浅”,如仅3层,而其他MML任务,如ViLBERT已用深度融合

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/80109.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【ASP.net】在Windows 11上安装IIS并测试C# Web项目的踩坑实录

摘要 多年未接触.NET技术栈的田辛老师,最近因项目需求重新搭建测试环境。本文记录了Windows 11环境下安装IIS服务的全过程,以及一个让开发者抓狂的“空白页面”问题的解决方案。 1. 基础环境配置 工欲善其事,必先利其器。本次环境搭建选择…

【IP101】图像特征提取技术:从传统方法到深度学习的完整指南

🌟 特征提取魔法指南 🎨 在图像处理的世界里,特征提取就像是寻找图像的"指纹",让我们能够识别和理解图像的独特性。让我们一起来探索这些神奇的特征提取术吧! 📚 目录 基础概念 - 特征的"体…

HybridCLR 详解:Unity 全平台原生 C# 热更新方案

HybridCLR(原 Huatuo)是 Unity 平台革命性的热更新解决方案,它通过扩展 Unity 的 IL2CPP 运行时,实现了基于原生 C# 的完整热更新能力。下面从原理到实践全面解析这一技术。 一、核心原理剖析 1. 技术架构 原始 IL2CPP 流程&am…

机器学习——逻辑回归ROC练习

一、 题目要求: 给定以下二分类模型的预测结果,手动绘制ROC曲线并计算AUC值: y_true [0, 1, 0, 1, 0, 1] # 真实标签(0负类,1正类) y_score [0.2, 0.7, 0.3, 0.6, 0.1, 0.8] # 模型预测得分 代码展示…

Python项目源码69:Excel数据筛选器1.0(tkinter+sqlite3+pandas)

功能说明:以下是一个使用Tkinter和Pandas实现的完整示例,支持Excel数据读取、双表格展示和高级条件筛选功能: 1.文件操作:点击"打开文件"按钮选择Excel文件(支持.xlsx和.xls格式),自…

php8 枚举使用教程

简介 PHP 从 8.1 开始原生支持枚举(enum),这是 PHP 向类型安全和现代语言特性迈进的重要一步。枚举可以定义一组有穷的、不可变的常量集合,常用于表示状态值、选项类型等。 基础语法 PHP 支持两种类型的枚举: 纯枚…

【Linux】Linux环境基础开发工具

前言 本篇博客我们来了解Linux环境下一些基础开发工具 💓 个人主页:zkf& ⏩ 文章专栏:Linux 若有问题 评论区见📝 🎉欢迎大家点赞👍收藏⭐文章 目录 1.Linux 软件包管理器 yum 2.Linux开发工具 2.1…

vue2开发者sass预处理注意

vue2开发者sass预处理注意 sass的预处理器,早年使用node-sass,也就是vue2最初默认的编译器。 sass官方推出了dart-sass来替代。 node-sass已经停维很久了。 vue3默认使用的是dart-sass。 Uniapp的官方文档截图 从 HBuilderX 4.56 ,vue2 …

Spring MVC Controller 方法的返回类型有哪些?

Spring MVC Controller 方法的返回类型非常灵活,可以根据不同的需求返回多种类型的值。Spring MVC 会根据返回值的类型和相关的注解来决定如何处理响应。 以下是一些常见的 Controller 方法返回类型: String: 最常见的类型之一,用于返回逻辑…

[ctfshow web入门] web55

信息收集 这里把小写字母都过滤了&#xff0c;众所周知linux是大小写区分的&#xff0c;没有小写字母根本整不出来命令 if(isset($_GET[c])){$c$_GET[c];if(!preg_match("/\;|[a-z]|\|\%|\x09|\x26|\>|\</i", $c)){system($c);} }else{highlight_file(__FILE…

2021-11-11 C++泰勒sin(x)以2步进乘方除以阶乘加减第N项

缘由c书本题&#xff0c;求解了&#xff0c;求解-编程语言-CSDN问答 int n 10, d 3, z -1; double x 2.5, xx x;while (n){xx (乘方(x, d) / 阶乘(d)) * z;d 2, --n, z * -1;}std::cout << xx << std::endl;

湖仓一体化介绍

目录 一、湖仓一体化的定义与核心概念 二、湖仓一体化出现的背景 (一)数据仓库的局限性 (二

仓颉编程语言快速入门:从零构建全场景开发能力

在万物互联的智能时代,编程语言的演进始终与计算范式的革新紧密相连。华为推出的仓颉编程语言(Cangjie Programming Language)以“原生智能化、天生全场景”为核心理念,为开发者提供了一种兼顾高效开发与极致性能的新选择。本文将带你从零开始,快速掌握这门面向未来的语言…

AI教你学VUE——Deepseek版

一、基础阶段&#xff1a;打好Web开发基础 HTML/CSS基础 学习HTML标签语义化、CSS布局&#xff08;Flex/Grid&#xff09;、响应式设计&#xff08;媒体查询、REM/VW单位&#xff09;。资源推荐&#xff1a; MDN Web文档&#xff08;免费&#xff09;&#xff1a;HTML | CSS实战…

DeepSeek智能时空数据分析(八):NL2SQL绘制河流-轨迹缓冲区如何生成

序言&#xff1a;时空数据分析很有用&#xff0c;但是GIS/时空数据库技术门槛太高 时空数据分析在优化业务运营中至关重要&#xff0c;然而&#xff0c;三大挑战仍制约其发展&#xff1a;技术门槛高&#xff0c;需融合GIS理论、SQL开发与时空数据库等多领域知识&#xff1b;空…

推导部分和-图论+dfs+连通块

先研究一下&#xff0c;感觉有点像lca里的树上前缀和&#xff0c;不过树有多颗&#xff0c;用color区分一下 https://www.luogu.com.cn/problem/P8779 #include<bits/stdc.h> using namespace std; #define N 100011 typedef long long ll; typedef pair<int,int&g…

WPF MVVM入门系列教程(六、ViewModel案例演示)

&#x1f9ed; WPF MVVM入门系列教程 一、MVVM模式介绍二、依赖属性三、数据绑定四、ViewModel五、命令和用户输入六、ViewModel案例演示 在前面的文章中&#xff0c;介绍了ViewModel的基础概念 本文会使用一些实例来进行ViewModel的演示 一个基础的数据展示示例 假设我们要…

第2章 算法分析基础

2-1 算法的时间复杂度分析 2.1.1 输入规模与基本语句 输入规模&#xff1a;算法处理数据的规模&#xff0c;通常用 n 表示。 基本语句&#xff1a;执行次数与输入规模直接相关的关键操作。 例2.1 顺序查找 int SeqSearch(int A[], int n, int k) { for (int i 0; i < n…

QT高级(1)QTableView自定义委托集合,一个类实现若干委托

自定义委托集合 1同系列文章2 功能3 源码 1同系列文章 QT中级&#xff08;1&#xff09;QTableView自定义委托&#xff08;一&#xff09;实现QSpinBox、QDoubleSpinBox委托 QT中级&#xff08;2&#xff09;QTableView自定义委托&#xff08;二&#xff09;实现QProgressBar委…

webrtc 视频直播

webrtc 是一种开源的音视频通信技术&#xff0c;可以不借助中间媒介建立浏览器点对点&#xff08;peer-to-peer&#xff09;连接&#xff0c;实现音视频以及其他数据的传输。webrtc具有平台兼容性&#xff0c;低延迟与高实时的优点。今天主要记录一下webrtc的使用记录&#xff…