多模态大语言模型arxiv论文略读(三十八)

请添加图片描述

Tables as Texts or Images: Evaluating the Table Reasoning Ability of LLMs and MLLMs

➡️ 论文标题:Tables as Texts or Images: Evaluating the Table Reasoning Ability of LLMs and MLLMs
➡️ 论文作者:Naihao Deng, Zhenjie Sun, Ruiqi He, Aman Sikka, Yulong Chen, Lin Ma, Yue Zhang, Rada Mihalcea
➡️ 研究机构: University of Michigan、University of Cambridge、Westlake University
➡️ 问题背景:近年来,大型语言模型(LLMs)在各种自然语言处理(NLP)任务中表现出色。然而,这些模型在处理结构化数据,如表格数据时的表现,尚未得到充分探索。表格数据因其系统化的信息组织方式,在医疗诊断、虚拟个人助手、客户关系管理等多个应用中扮演着重要角色。因此,评估LLMs在处理表格数据时的表现,对于优化这些模型的应用具有重要意义。
➡️ 研究动机:尽管已有研究探讨了LLMs在不同任务中的表现,但它们在处理表格数据时的有效性仍是一个相对未被探索的领域。本研究旨在系统地评估LLMs在处理表格数据时的表现,特别是通过不同的提示策略和数据格式,来探究文本和图像表示对LLMs性能的影响。此外,研究还探讨了不同提示方法对LLMs处理表格相关任务的影响,以期为优化LLMs在表格数据处理中的应用提供有价值的见解。
➡️ 方法简介:研究团队通过构建一个包含多种表格表示方法的数据集,系统地评估了五种文本表示和三种图像表示对LLMs性能的影响。实验中使用了六种不同的LLMs,包括GPT-3.5、GPT-4、GeminiPro和Llama-2的不同版本。研究还比较了不同的提示策略,如普通提示、链式思考提示和专家提示,以评估这些策略对模型性能的影响。
➡️ 实验设计:实验在六个公开数据集上进行,涵盖了表格相关的任务,如问答、事实核查和表格到文本的生成。实验设计了不同的表格表示方法(如纯文本、带括号的文本、JSON格式等)和图像表示方法(如原始图像、列颜色高亮、行颜色高亮等),以及不同的提示策略,以全面评估模型在不同条件下的表现。研究发现,图像表示有时可以显著提高LLMs的性能,尤其是在涉及复杂推理的任务中。此外,不同的提示策略对模型性能的影响也很大,特别是专家提示在某些模型上表现尤为突出。

The Revolution of Multimodal Large Language Models: A Survey

➡️ 论文标题:The Revolution of Multimodal Large Language Models: A Survey
➡️ 论文作者:Davide Caffagni, Federico Cocchi, Luca Barsellotti, Nicholas Moratelli, Sara Sarto, Lorenzo Baraldi, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara
➡️ 研究机构: University of Modena and Reggio Emilia, Italy; University of Pisa, Italy; IIT-CNR, Italy
➡️ 问题背景:随着大规模语言模型(LLMs)的成功,研究者们开始将这些模型扩展到多模态领域,开发出多模态大规模语言模型(MLLMs)。这些模型能够无缝集成视觉和文本模态,提供对话界面和指令跟随能力。本文综述了近期基于视觉的MLLMs,分析了它们的架构选择、多模态对齐策略和训练技术,并在多种任务上进行了详细分析,包括视觉定位、图像生成和编辑、视觉理解及特定领域的应用。
➡️ 研究动机:本文旨在提供一个全面的MLLMs综述,涵盖模型的架构、训练方法和任务性能,为未来的研究和发展奠定基础。与现有综述相比,本文特别关注视觉定位、图像生成和编辑等关键领域,并详细描述了每个MLLM的主要组件,如视觉编码器和特定的LLM。此外,本文还提供了模型性能和硬件需求的比较分析,填补了现有研究的空白。
➡️ 方法简介:研究团队通过分析MLLMs的视觉编码器、适配器模块和训练数据,探讨了这些模型如何实现视觉和文本模态的有效连接。视觉编码器通常基于预训练的Vision Transformer模型,而适配器模块则包括线性层、MLP、Q-Former和额外的交叉注意力层等。训练方法包括单阶段和两阶段训练,其中两阶段训练首先对视觉特征进行对齐,然后增强多模态对话能力。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括Conceptual Captions 3M (CC3M)、LAION和COYO-700M等,这些数据集提供了大规模的图像-文本对,用于模型的预训练和优化。实验评估了不同MLLMs在视觉定位、图像生成和编辑等任务上的性能,并比较了它们的计算需求和性能表现。

Model Composition for Multimodal Large Language Models

➡️ 论文标题:Model Composition for Multimodal Large Language Models
➡️ 论文作者:Chi Chen, Yiyang Du, Zheng Fang, Ziyue Wang, Fuwen Luo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Maosong Sun, Yang Liu
➡️ 研究机构: 清华大学计算机科学与技术系、清华大学人工智能产业研究院、阿里巴巴智能计算研究所、上海人工智能实验室、江苏语言能力协同创新中心
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理多种模态输入方面取得了快速进展。然而,现有的方法通常依赖于联合训练配对的多模态指令数据,这不仅资源密集,而且难以扩展到新的模态。此外,现有的多模态模型在处理多种模态输入时,性能往往受限于模态特定指令数据的缺乏。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种新的范式——多模态大语言模型的模型组合(Model Composition for MLLMs)。该方法通过组合现有的MLLMs,无需额外训练即可继承每个原始模型的模态理解能力,从而创建一个能够处理多种模态输入的多功能模型。研究旨在探索这种组合方法的可行性,并评估其在多模态任务中的性能。
➡️ 方法简介:研究团队提出了两种模型组合框架:NaiveMC和DAMC。NaiveMC通过直接重用模态特定编码器并合并大语言模型(LLM)参数,实现多模态模型的组合。DAMC进一步引入了参数解耦和自适应调整机制,以减少参数干扰并优化组合模型的性能。此外,研究团队还构建了MCUB基准,用于评估模型在处理多种模态输入时的综合理解能力。
➡️ 实验设计:研究在多个数据集上进行了实验,包括音频-视觉问答(MUSIC-AVQA、AVQA)、3D对象分类(ModelNet40、Objaverse)以及MCUB基准。实验设计了不同模态输入的组合(如视频+图像、视频+音频、视频+图像+音频等),以全面评估模型在不同任务中的表现。实验结果表明,DAMC在所有任务和模态组合中均表现出最佳性能,显著优于其他基线方法。

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

➡️ 论文标题:How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts
➡️ 论文作者:Yusu Qian, Haotian Zhang, Yinfei Yang, Zhe Gan
➡️ 研究机构: Apple
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理视觉和语言任务方面取得了显著进展,但这些模型在处理提示中的欺骗信息时仍存在显著的脆弱性,容易产生幻觉响应。当前的研究主要集中在减少幻觉,尤其是在生成长文本时,但对模型在面对提示中的欺骗信息时的鲁棒性研究较少。
➡️ 研究动机:为了填补这一研究空白,研究团队构建了一个新的基准测试MAD-Bench,旨在系统地评估MLLMs在处理提示中的欺骗信息时的性能。通过这一基准测试,研究团队希望揭示MLLMs在面对欺骗信息时的脆弱性,并探索提高模型鲁棒性的方法。
➡️ 方法简介:研究团队构建了MAD-Bench,该基准测试包含1000个图像-提示对,分为五个欺骗类别,如不存在的对象、对象数量、对象属性、场景理解和文本识别。研究团队使用GPT-4o作为评估工具,对19个不同的MLLMs进行了评估,包括15个开源模型和4个最先进的专有系统。
➡️ 实验设计:实验设计了不同类型的欺骗提示,包括对象数量的错误描述、不存在的对象、对象属性的错误描述、场景理解的错误描述和文本识别的错误描述。研究团队通过GPT-4o自动评估模型的响应,并通过人工检查验证了自动评估的准确性。实验结果表明,GPT-4V在所有模型中表现最佳,但在某些情况下仍会失败。此外,研究团队提出了一种简单的方法,通过在提示中添加额外的段落来鼓励模型在回答问题前进行更仔细的思考,这种方法在多个模型上显著提高了性能。

CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models

➡️ 论文标题:CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models
➡️ 论文作者:Fuwen Luo, Chi Chen, Zihao Wan, Zhaolu Kang, Qidong Yan, Yingjie Li, Xiaolong Wang, Siyu Wang, Ziyue Wang, Xiaoyue Mi, Peng Li, Ning Ma, Maosong Sun, Yang Liu
➡️ 研究机构: Tsinghua University, Institute for AI Industry Research (AIR), Shanghai Artificial Intelligence Laboratory, Jiangsu Collaborative Innovation Center for Language Competence, Northwest Minzu University, Jilin University, Institute of Computing Technology, Chinese Academy of Sciences
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在结合视觉和语言的多种任务中展现了显著的成果。然而,现有的大多数基准测试未能考虑在某些情况下,图像需要在更广泛的上下文中进行解释。这导致了模型在上下文依赖的视觉理解能力上的评估不足。
➡️ 研究动机:为了评估MLLMs在上下文依赖的视觉理解能力上的表现,研究团队提出了一个新的基准测试——CODIS(COntext-Dependent Image diSambiguation)。CODIS旨在评估模型使用自由文本形式提供的上下文来增强视觉理解的能力,以弥补现有基准测试的不足。
➡️ 方法简介:CODIS利用视觉问答(VQA)格式,每个图像包含内在的模糊性,需要额外的上下文才能解决。每个图像-问题对都提供了两个自由文本形式的上下文,这些上下文虽然细微不同,但会导致对图像的不同解释和不同的答案。研究团队精心策划了所有图像、问题和上下文,以确保高质量和多样性。
➡️ 实验设计:研究团队评估了14个广泛使用的MLLMs在CODIS上的表现,使用了两个评估指标:成对准确率(Accp)和查询准确率(Accq)。Accp要求模型对一对查询的回答都正确才能得分,而Accq则对每个单独的正确回答进行评分。实验结果表明,MLLMs在上下文依赖的视觉理解能力上显著低于人类表现,特别是在识别关键上下文线索和提取相关视觉特征方面存在困难。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/80667.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

聊聊Spring AI Alibaba的YuQueDocumentReader

序 本文主要研究一下Spring AI Alibaba的YuQueDocumentReader YuQueDocumentReader community/document-readers/spring-ai-alibaba-starter-document-reader-yuque/src/main/java/com/alibaba/cloud/ai/reader/yuque/YuQueDocumentReader.java public class YuQueDocument…

OCR定制识别:解锁文字识别的无限可能

OCR 定制识别是什么? OCR,即光学字符识别(Optical Character Recognition) ,它就像是一个神奇的 “文字翻译器”,能把图片里的文字转化成计算机可编辑的文本。比如,你扫描一份纸质文档成图片&am…

麒麟系统(基于Ubuntu)上使用Qt编译时遇到“type_traits文件未找到”的错误

在麒麟系统(基于Ubuntu)上使用Qt编译时遇到“type_traits文件未找到”的错误,通常是由于C标准库头文件缺失或项目配置问题导致的。以下是逐步解决方案: 1. 安装C标准库和开发工具 确保系统已安装完整的开发工具链和标准库&#…

服务器上安装node

1.安装 下载安装包 https://nodejs.org/en/download 解压安装包 将安装包上传到/opt/software目录下 cd /opt/software tar -xzvf node-v16.14.2-linux-x64.tar.gz 将解压的文件夹移动到安装目录(/opt/nodejs)下 mv /opt/software/node-v16.14.2-linux-x64 /opt/nodejs …

Vue3 + Vite + TS,使用 ExcelJS导出excel文档,生成水印,添加背景水印,dom转图片,插入图片,全部代码

Vue3 Vite TS,使用 ExcelJS导出excel文档,生成水印,添加背景水印,dom转图片,插入图片,全部代码 ExcelJS生成文档并导出导出表头其他函数 生成水印设置文档的背景水印dom 转图片插入图片全部代码 ExcelJS 读取&#…

devops自动化容器化部署

devops 一、简单案例体验gitlabrunner部署静态文件二、devops企业级部署方案1、流程图2、依赖工具3、流程图4、主机规划5、安装工具软件1、安装git2、安装gitlab3、安装jenkins-server4、安装harbor5、安装web-server,也就是部署服务的机子,需要安装dock…

高级 SQL 技巧:提升数据处理能力的实用方法

在数据驱动的时代,SQL 作为操作和管理关系型数据库的标准语言,其重要性不言而喻。基础的 SQL 语句能满足日常的数据查询需求,但在处理复杂业务逻辑、进行数据分析和优化数据库性能时,就需要掌握一些高级 SQL 技巧。这些技巧不仅能提高查询效率,还能实现复杂的数据处理任务…

21.disql命令登录达梦数据库,查询并操作数据库

目录 1.连接达梦数据库 1.1 windows或linux系统 步骤(1):打开终端窗口 步骤(2):进入梦数据库安装目录下的 bin 文件夹 步骤(3):用disql命令进行登录 1.2 docker部署…

N8N MACOS本地部署流程避坑指南

最近n8n很火,就想在本地部署一个,尝尝鲜,看说明n8n是开源软件,可以在本地部署,于是就尝试部署了下,大概用了1个多小时,把相关的过程记录一下: 1、基础软件包 abcXu-MacBook-m2-Air…

qt之开发大恒usb3.0相机一

1.在大恒相机给的sample里没有看见qt开发的demo. 第一步先运行c sdk中中的demo,看了下代码,大恒使用的UI框架是MFC.然后 vs2022编译。运行结果 第一步,先用qt进行坐下页面布局,如下图(保存图片的地方做了些更改&#…

leetcode-枚举

枚举 3200. 三角形的最大高度 题目 给你两个整数 red 和 blue,分别表示红色球和蓝色球的数量。你需要使用这些球来组成一个三角形,满足第 1 行有 1 个球,第 2 行有 2 个球,第 3 行有 3 个球,依此类推。 每一行的球必…

DeepSeek智能时空数据分析(三):专业级地理数据可视化赏析-《杭州市国土空间总体规划(2021-2035年)》

序言:时空数据分析很有用,但是GIS/时空数据库技术门槛太高 时空数据分析在优化业务运营中至关重要,然而,三大挑战仍制约其发展:技术门槛高,需融合GIS理论、SQL开发与时空数据库等多领域知识;空…

如何用WordPress AI插件自动生成SEO文章,提升网站流量?

1. 为什么你需要一个WordPress AI文章生成插件? 每天手动写文章太耗时?SEO优化总是不达标?WordPress AI插件能帮你24小时自动生成原创内容,从关键词挖掘到智能排版,全程无需人工干预。 痛点:手动写作效率低…

鼠标指定范围内随机点击

鼠标指定范围内随机点击 点赞神器 将鼠标移动到相应位置后按F5 F6键,设置点击范围, F8开始,ESC中止。 有些直播有点赞限制,例如某音,每小时限制3千次,可以设置1200毫秒,3000次。 软件截图&#…

数据库设置外键的作用

数据库外键(Foreign Key)是关系型数据库中用于建立表与表之间关联关系的重要约束,其核心作用是确保数据的一致性、完整性和关联性。以下是外键的主要作用及相关说明: 1. 建立表间关联关系 外键通过引用另一张表的主键&#xff0…

发币流程是什么,需要多少成本?

这是一个专注于Web3相关开发的账号,具体会讲解步骤以及开发方案 偶尔会有科普,有兴趣的可以点右上角关注一下 发币(发行数字货币)的流程通常涉及技术实现、法律合规、经济模型设计等多个环节,以下是关键步骤的简要说明…

测试常用的Linux系统指令详解

为什么测试工程师需要掌握Linux命令? 在现代软件测试领域,约75%的服务端应用运行在Linux环境中,能够熟练使用Linux命令的测试工程师,其工作效率比仅依赖GUI工具的测试人员高出40%以上。本文将系统介绍测试工作中最实用的Linux命令…

Java学习手册:Web 安全基础

一、常见 Web 安全威胁 在 Web 开发中,安全问题至关重要。以下是一些常见的 Web 安全威胁: 1. SQL 注入 SQL 注入是一种攻击方式,攻击者通过在输入字段中插入恶意的 SQL 代码,从而操纵数据库。例如,假设有一个登录表…

游戏引擎学习第246天:将 Worker 上下文移到主线程创建

回顾并为今天的工作做准备 关于GPU驱动bug的问题,目前本地机器上没有复现。如果有问题,昨天的测试就应该已经暴露出来了。当前演示的是游戏的过场动画,运行正常,使用的是硬件渲染。 之前使用软件渲染时没有遇到太多问题&#xff…

2025.4.26总结

今天把马良老师的《职场十二法则》看完后,感触极大,这们课程就是一场职场启蒙课。 虽然看过不少关于职场的书籍,但大多数是关于职场进阶,方法方面的。并没有解答“面对未来二三十年的职场生涯,我该怎么去看待自己的工…