Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理

1.摘要

多模态情感识别是人工智能领域的一个活跃的研究课题。它的主要目标是整合多种模态(如听觉、视觉和词汇线索)来识别人类的情绪状态。目前的工作通常假设基准数据集的准确情感标签，并专注于开发更有效的架构。但由于情感固有的主观性，现有数据集往往缺乏高标注一致性，导致潜在的不准确标签。因此，建立在这些数据集上的模型可能难以满足实际应用的需求。为了解决这个问题，提高情感标注的可靠性至关重要。在这篇论文中，我们提出了一个新的任务叫做“可解释的多模态情感推理(EMER)”。与以前主要集中于预测情绪的作品相比，EMER更进一步，为这些预测提供了解释。只要预测情绪背后的推理过程是可信的，预测就被认为是正确的。本文介绍了我们在EMER上的初步工作，其中我们引入了一个基准数据集，建立了基线模型，并定义了评估指标。同时，我们注意到整合多方面能力以应对EMER的必要性。因此，我们提出了影响计算中的第一个多模态大语言模型，称为AffectGPT。我们的目标是解决标签歧义的长期挑战，并为更可靠的技术指明道路。此外，EMER提供了一个机会来评估音频视频文本理解能力的最新多模态LLM。为了便于进一步的研究，我们将代码和数据发布在:https://github . com/zero qiaoba/affect GPT

多模态情感识别目标：整合多种模态识别人类的情绪状态。
论文提出了一个新的任务：可解释的多模态推理EMER

可解释性在于：为预测结果提供了解释
提出一个数据集，作为基准

情感计算的第一个大模型AffectGPT
目标：解决标签歧义的长期挑战，更可靠的技术发展

2.数据集

该文章提出的数据集是新颖的，其独特之处在于：

每个标注者从四个方面标注情感线索:

1)面部表情和肢体动作；

2)声调和语调；

3)演讲内容；

4)视频内容、环境和其他线索。

线索总结：对于每个样本，三个注释者从四个方面提供线索。为了总结所有线索，我们利用chat GPT并使用图1中的提示。但是，我们仍然在生成的结果中观察到一些重复的表达式。因此，我们手动检查并优化输出。

目的：使用gpt的智能性对线索进行总结。

一段视频的多段描述如下。请将这些描述总结如下:

1.请将“线索描述”的多个段落的主语统一为“他”

2 .请将“线索描述”的多个段落进行总结，删除重复的单词、短语或句子，并用完整的句子描述最终结果

3 .检查标点符号

情感总结：在这一步中，我们使用ChatGPT从汇总的线索中推断情绪状态，因为这一策略比MER2023中的原始标签提供了更微妙的情绪。然而，我们在输出中观察到一些不可靠的情绪。为了解决这个问题，我们使用few-shot

ChatGPT进行情感摘要。提示如图2所示。

请总结一下这个人的情绪状态:投入:

他看起来很开心，其实很焦虑。

输出:焦虑

线索和情感的结合：我们把情绪和线索组合成一个段落:在这些“线索”的辅助下，我们可以推断出人物的情绪状态为“情绪”。然后，我们人工评估这个推理过程的合理性，得到最终的描述。

总结：

可解释型多模态情感推理==（线索+情感——>预测情感）

什么是可解释性：

我在这里的理解就是，我有一个很合理的证据去推断出当前的情感。这个证据就是线索和情感。线索是关键信息的提炼，情感是关键信息表征的情感内涵的提炼。这两个因素很大程度上能够指向一个合理的情感，且这个过程是人工可以评估的，那么我的情感预测就是可解释的。

3.任务解决思路

直接方法：使用多模态逻辑线性模型，因为这些模型能够处理各种多模态理解任务。

由于情绪感知依赖于时间信息，我们只选择支持视频输入的多模态LLM，包括VideoChat [9]、Video-ChatGPT [13]、Video-LLaMA [10]、PandaGPT [11]和Valley [14]

多模态LLM背后的基本思想：将其他模态的预训练模型与文本LLM对齐。在对指令数据集进行微调后，这些模型表现出理解指令和多模态输入的非凡能力

例如，VideoChat和Video-LLaMA使用BLIP-2[15]中的Q-Former将可视查询映射到文本嵌入空间。

PandaGPT使用image bind[16]来学习六种模态之间的对齐。

Video-ChatGPT和Valley exploit CLIP[17]来获得文本对齐的视觉特征。

PandaGPT和Video-LLaMA还支持音频输入。

为了在视频中集成字幕信息，我们在提示中包含字幕作为附加内容。——即为需要提取线索信息的原料。

相同的提示信息：

Prompt:The subtitle of this video is <Subtitle><Subtitle_Here></Subtitle>.Now answer my question based on what you have heard,seen,and given subtitles.From what clues can we infer the person’s emotional state?Please summarize the clues in a maximum of 100 words.

此视频的字幕为< Subtitle > < Subtitle _ Here > 。现在根据你所听到的、看到的和给的字幕回答我的问题。从哪些线索可以推断出这个人的情绪状态？请用不超过100字的篇幅总结这些线索

4.评价指标

评价指标主要分为自动评价和人工评价两部分。

自动评价：

利用ChatGPT从三个方面评估预测结果:

1)情感相关线索之间的重叠程度；

2)概括的情绪状态之间的重叠程度；

3)推理过程的模态完备性。对于前两个指标，分数范围为0到10，分数越高表示重叠越多

对于这些指标，我们首先使用提示1总结情绪相关的线索(或情绪状态)，然后使用提示2计算重叠部分(见图3和图4)。

所谓重叠度的计算即重复词的概率

##Prompt1:请提取与角色情绪状态相关的描述，然后进一步总结这些描述，

输入:{预测}

输出:##

Prompt2:“真实线索”和“预测线索”在下面给出。请计算“真实线索”和“预测线索”的重叠部分。重叠程度越高，返回的分数越高。分数范围从0-10。

真实线索:抬眉、笑脸

预测线索:抬眉

得分:5

真实线索:{ gt _ clue }

预测线索:{ pred _ clue }

得分:

图3:计算情绪相关线索重叠程度的提示。

##Prompt1:请总结此人的情绪状态:

输入:他看起来很开心，但实际上很焦虑。

输出:焦虑

输入:{预测}

输出:

# #Prompt2:下面给出“真实情绪”和“预测情绪”。请计算“真实情绪”和“预测情绪”的重叠程度。重叠程度越高，返回的分数越高。分数范围从0-10。

真实情绪:快乐

预测情绪:快乐

得分:10

真实情绪:{ gt _ emo }

预测情绪:{ pred _ emo }

得分:

图4:计算情绪状态重叠程度的提示

与此同时，能够从更多模态推断情绪的模型应该得到更高的分数。

因此，我们使用图5中的提示来评估推理过程的完整性。

推理过程的完整性展示：

从那种模态——什么内容——推断出什么情感

请总结输入内容涵盖了多少种模式。您可以从['音频'，'视觉'，'内容']:

输入:他看起来很开心，音乐让我开心。

输出:视觉，音频

输入:他看起来很开心，音乐让我开心。同时，他对研究人员表示感谢。

输出:视觉、听觉、内容

输入:{预测}

输出:

图5:评估模态完整性的提示。

人工评估：

对预测结果进行人工评估。

对于每个视频，我们雇佣五个注释者来判断推理过程的合理性。注释者有

“完全错误”、“正确(小部分)”、“正确(大部分)”和“完全正确”四种选择。

我们将这些选择映射到从1到4的分数范围内，分数越高表明推理能力越强。

总结评价：当前的一些评价指标基本都是基于自动指标+人工指标的标准，人工指标多结合认为特别设计，而自动指标常常为该领域的常用指标。

5.AffectGPT

使用初始EMER数据集来训练音频-视频-文本对齐的多模态LLM，称为AffectGPT。

模型：主要框架来自Video-LLaMA，并做了一些修改

修改：

        (1)视频-LLaMA分别训练音频和视频分支。我们修改它以支持音频-视频-文本对齐训练。

        (2)在Video-LLaMA中，不同指令数据集的输入输出格式不一致。因此，我们统一了输入和输出格式。

        代码:https://github . com/zero qiaoba/affect GPT。

数据集处理：一些初步的实验来测试不同样本选择策略的影响

1.训练测试随机划分：80个：20个

2.训练集+Video-LLaMA三个指令数据集结合【训练集扩充】

3.指令微调——模型：gt-eng-remove-test【微调】

4.去除短样本(小于2s)——模型：gt-eng-remove-test remove-short【清洗】

5.训练期间合并训练集和测试集——gt-eng【所有数据训练，测试上限性能】

重叠性与性能展示：

总结：

EMER数据集指令微调能够给情感推理带来性能改善——原因很明显，因为EMER数据集是一个情感相关的数据集。

gt-eng训练完美——原因测试数据集参与训练了，为了测试模型性能上限。

总结：

很少有模型从听觉推断情感，当前LLM多模态更关注视觉通道——看数据集也能看出来听觉信息不多叭

提高多通道理解能力，考虑更多音频指令数据集——模态平衡的操作叭

总结：

gt-eng-remove-test：没有去除短视频

gt-eng-remove test-remove-short ：去除短视频

去除短视频模态完整性更好——短视频情感相关描述更少，取出后，倾向于更长的描述，覆盖更多的模态。

6.实验结果和讨论

评估不同基线在整个EMER数据集上的性能

视频聊天的两个版本：

文本视频聊天：使用视觉模型将视觉数据转换为文本格式

嵌入式视频聊天：将视觉信息与文本嵌入空间对齐的端到端模型

自动评估：

1.实际和预测差异显著：现有多模态LLM在情感推理中的局限性

2.指标趋势具有相似性：

在所有基准中，VideoChat-Text通常表现最差，而Valley通常表现最佳。值得注意的是，音频基准(如PandaGPT和Video-LLaMA)并没有表现出优异的性能。

人工评估：

人工评价的设计：

尽在20个测试样本进行人工评估

为消除人为误差影响：将ground truth和预测放在一起，打乱评分

        结果见表2

总结：

chatGPT和人工评估有一定的相似性： VideoChat-Text 一贯表现最差，而Valley一贯实现最佳表现

指标间存在差异：chatGPT作为参考，主要结论来自人的评价

评估多模态集成效果：

基于chatGPT和人工的相似性，根据线索重叠和情感重叠从基线中选择最佳预测——标记为基线（线索）、基线（情感）

这种策略可以提高情感推理性能，验证了多模型集成的优势。

总结：AffectGPT的性能-表二

AffectGPT在情感推理中得分最高——>AffectGPT(线索)”和“AffectGPT(情感)这两个模型都最好

最好——>在gt-eng-remove-test”和“‘gt-eng-remove-test-remove-short”两种训练集设置中，获取性能最好的模型（最佳预测）。分别被表示为“AffectGPT(线索)”和“AffectGPT(情感)”。

        实验结果表明，AffectGPT在情感推理中的得分最高，充分验证了该策略的有效性。

定性分析：

随机选择样本进行可视化展示：

总结：

基线预测都是快乐，但实际标签是愤怒

错误原因：不能理解声音线索(如颤抖的声音和激动的音调)和面部线索(如皱眉)。

        Video-LLaMA：错误识别出背景音乐的存在（当根本没有背景音乐时）

        Valley和Video-LLaMA的视频描述能力不错——他们成功地识别出一名穿着西装的男子在木窗前对着麦克风说话，尽管这些描述与他的情绪状态无关。

总结：

所有基线只有PandaGPT和Video-ChatGPT准确地将人的情绪状态识别为烦躁。

        Video-ChatGPT：错误识别人物正在对着电话说话（当这个人没有拿着电话时）

        大多数基线正确地识别出这个人正在喝水，但这种观察与她的情绪状态无关。

原因：即当前的多模态LLM主要是在图像字幕数据集或视频字幕数据集上训练的，这些数据集关注于服装、环境、动作等。，而不是以面部为中心的描述。此外，这些数据集通常忽略多模态信息，从而限制了在这些数据集上训练的多模态LLM的音频-视频-文本理解能力。

7.总结

总结：

提出EMER任务，去做情感多模态。与传统情绪识别不一样，不仅预测情绪状态，还提供了解释。旨在解决：标签歧义问题，提高识别可靠性

为促进研究，构建了初始数据集，开发了基线，并定义评估指标：自动|人工

实验结果证明这项任务有难度——现有技术达不到预期效果。使用AffectGPT整合多方面能力来解决当前问题。EMER成为评估多通道LLM音频-视频-文本理解能力的基础任务。

目标：

降低标注成本，增加数据集大小

设计更有效的基线，改善任务效果

鼓励更多人参与，推进情感计算实际应用