多模态大语言模型arxiv论文略读(五十六)

请添加图片描述

DesignQA: A Multimodal Benchmark for Evaluating Large Language Models’ Understanding of Engineering Documentation

➡️ 论文标题:DesignQA: A Multimodal Benchmark for Evaluating Large Language Models’ Understanding of Engineering Documentation
➡️ 论文作者:Anna C. Doris, Daniele Grandi, Ryan Tomich, Md Ferdous Alam, Mohammadmehdi Ataei, Hyunmin Cheong, Faez Ahmed
➡️ 研究机构: Massachusetts Institute of Technology (MIT), Autodesk Research, MIT Motorsports
➡️ 问题背景:当前的大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在处理各种任务时表现出色,尤其是在工程设计领域。然而,这些模型在处理复杂的技术文档时仍存在局限性,尤其是在理解多模态信息(如文本、CAD图像和工程图纸)方面。为了评估这些模型在工程设计任务中的表现,研究团队开发了DesignQA,这是一个新的多模态基准,旨在评估MLLMs在理解和应用工程设计要求方面的能力。
➡️ 研究动机:尽管MLLMs在某些工程设计任务中表现出色,但它们在处理复杂的技术文档时仍面临挑战,如从文档中提取相关规则、识别CAD图像中的技术组件以及分析工程图纸。为了更好地理解这些模型的局限性,并为未来的改进提供方向,研究团队开发了DesignQA,以全面评估MLLMs在工程设计任务中的表现。
➡️ 方法简介:研究团队构建了DesignQA基准,该基准包含1451个问题,基于Formula SAE 2024规则文档和MIT Motorsports团队提供的CAD模型和测试数据。DesignQA分为三个部分:规则提取(Rule Extraction)、规则理解(Rule Comprehension)和规则遵守(Rule Compliance),每个部分进一步细分为具体的任务。此外,DesignQA还包含自动评估指标,以确保评估的客观性和可重复性。
➡️ 实验设计:研究团队使用DesignQA基准评估了多个最先进的MLLMs,包括GPT-4o、GPT-4、Gemini-1.0、Claude-Opus和LLaVA-1.5。实验设计了不同的任务,如规则提取、规则理解和规则遵守,以全面评估模型在处理多模态信息和复杂技术文档时的能力。实验结果表明,尽管这些模型在某些任务上表现良好,但在提取规则、识别CAD图像中的技术组件和分析工程图纸等方面仍存在显著困难。这些发现强调了开发更强大的多模态模型的必要性,以更好地处理工程设计任务中的多模态信息。

LaVy: Vietnamese Multimodal Large Language Model

➡️ 论文标题:LaVy: Vietnamese Multimodal Large Language Model
➡️ 论文作者:Chi Tran, Huong Le Thanh
➡️ 研究机构: Hanoi University of Science and Technology
➡️ 问题背景:尽管大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在自然语言处理任务中展现了卓越的能力,但越南语多模态资源的缺乏限制了越南语MLLMs的发展。高质量的多模态数据集对于训练和评估MLLMs至关重要,因为这些模型需要整合视觉和文本信息来有效执行多模态任务。
➡️ 研究动机:为了解决越南语多模态资源的缺乏问题,并促进越南语多模态语言理解的研究,研究团队介绍了LaVy,这是首个越南语MLLM,并且在越南视觉语言任务中达到了最先进的性能。此外,研究团队还提出了LaVy-Bench基准,用于评估MLLMs在越南视觉语言任务中的理解能力。
➡️ 方法简介:LaVy基于LlaVA架构构建,包括视觉编码器、MLP投影器和语言模型三个主要组件。研究团队通过翻译和精炼、以及合成数据的方法,构建了一个包含708K图像-字幕对的预训练数据集和166K高质量指令的微调数据集。训练过程分为预训练和微调两个阶段,分别优化跨模态投影器和整个模型。
➡️ 实验设计:实验使用了Vistral 7B作为语言模型的骨干,并使用CLIP大型视觉编码器。预训练阶段使用708K字幕数据集训练1个epoch,微调阶段使用166K指令数据集训练1个epoch。评估时,使用贪婪解码生成模型的响应。LaVy在零样本视觉问答(VQA)和野外基准测试中表现出色,显著优于多语言基线模型mBLIP。

On Speculative Decoding for Multimodal Large Language Models

➡️ 论文标题:On Speculative Decoding for Multimodal Large Language Models
➡️ 论文作者:Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott
➡️ 研究机构: Qualcomm AI Research
➡️ 问题背景:多模态大型语言模型(MLLMs)在推理过程中由于其大型语言模型(LLMs)的主干结构,面临内存带宽瓶颈和自回归生成的问题,导致推理速度缓慢。本文探讨了通过投机解码(speculative decoding)来提高MLLMs推理效率的方法,特别是针对LLaVA 7B模型。
➡️ 研究动机:现有的研究主要集中在单模态LLMs的投机解码上,而针对多模态模型的研究较少。本文旨在填补这一空白,通过实验验证投机解码在多模态模型中的应用效果,特别是探索语言模型作为草案模型在不考虑图像信息时的性能。
➡️ 方法简介:研究团队提出了一种使用较小的语言模型作为草案模型的投机解码方法,该方法可以绕过图像令牌及其相关处理组件。此外,还构建了一个包含图像适配器的小型LLaVA草案模型,以评估其在不同任务中的表现。
➡️ 实验设计:实验在三个不同的任务上进行,包括LLaVA Instruct 150K数据集上的图像问答、COCO数据集上的图像描述生成以及ScienceQA数据集上的科学问题回答。实验设计了不同阶段训练和微调的草案模型,评估了不同草案模型在不同任务中的性能,特别是内存限制下的加速比、块效率和生成速率。

TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models

➡️ 论文标题:TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models
➡️ 论文作者:Ya-Qi Yu, Minghui Liao, Jihao Wu, Yongxin Liao, Xiaoyu Zheng, Wei Zeng
➡️ 研究机构: Huawei Inc.
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种多模态任务中展现了卓越的能力。然而,大多数现有的MLLMs并不适合处理文档导向的任务,这些任务需要细粒度的图像感知和信息压缩。文档图像理解能力作为MLLMs的核心能力之一,对于实现基于MLLM的智能手机应用代理、富文本辅助阅读等前沿应用至关重要。然而,文档图像具有高分辨率和高信息密度的特点,这给MLLMs带来了两个主要挑战:实现文档内容的细粒度视觉感知和高效压缩文档图像信息。
➡️ 研究动机:尽管先前的工作在解决上述困难方面取得了一定进展,但在细粒度视觉感知和文档信息压缩方面仍有改进空间。此外,大多数当前的MLLMs难以在通用能力和文档能力之间取得平衡。为了解决这些问题,研究团队提出了TextHawk,旨在探索高效的细粒度感知方法,同时保持MLLMs的通用能力。
➡️ 方法简介:TextHawk通过设计四个专用组件来实现其目标。首先,提出了一种重采样和重新排列(ReSampling and ReArrangement, ReSA)模块,以减少文档文本的冗余并降低计算成本。其次,引入了可扩展的位置嵌入(Scalable Positional Embeddings, SPEs),以保持不同图像大小的可扩展性。第三,采用查询提案网络(Query Proposal Network, QPN)在不同子图像中动态初始化查询。最后,设计了多级交叉注意力(Multi-Level Cross-Attention, MLCA)机制,以捕捉文档图像的层次结构和语义关系,增强细粒度视觉感知能力。
➡️ 实验设计:研究团队在多个基准数据集上进行了广泛的实验,包括通用和文档导向的MLLM基准。实验结果表明,TextHawk在文档基准和通用基准上均取得了最先进的结果,展示了其在细粒度视觉感知和通用视觉语言能力方面的优越性。此外,研究团队还通过Gemini Pro丰富了多模态文档数据,以缓解指令调优数据不足的问题。

UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark

➡️ 论文标题:UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark
➡️ 论文作者:Zhaokun Zhou, Qiulin Wang, Bin Lin, Yiwei Su, Rui Chen, Xin Tao, Amin Zheng, Li Yuan, Pengfei Wan, Di Zhang
➡️ 研究机构: 北京大学深圳研究生院、快手科技
➡️ 问题背景:图像美学评估(Image Aesthetic Assessment, IAA)是计算机视觉中的一个重要任务,旨在评估图像的摄影技术和艺术手法。然而,现有的IAA方法通常局限于单一数据集或任务,限制了其通用性和广泛应用。此外,当前的IAA方法与人类美学过程的对齐度不高,且缺乏标准化的数据格式,难以在统一架构下进行训练。
➡️ 研究动机:为了更好地与人类美学对齐,研究团队提出了一种统一的多模态图像美学评估框架(UNIAA),包括一个多模态大语言模型(MLLM)UNIAA-LLaVA和一个全面的基准UNIAA-Bench。该框架旨在整合不同来源和格式的美学数据,并在多个美学子任务中取得良好效果。
➡️ 方法简介:研究团队采用LLaVA架构,并通过美学视觉指令调优数据进一步微调,以获得UNIAA-LLaVA。为了构建调优数据,研究团队提出了一种低成本的IAA数据集转换范式(IDCP),将现有的IAA数据集转换为适合MLLM微调的格式。UNIAA-LLaVA通过视觉编码器的视觉感知和LLM的记忆能力,展示了强大的学习和与人类美学对齐的能力。
➡️ 实验设计:研究团队构建了UNIAA-Bench,从感知、描述和评估三个维度全面评估MLLM的美学能力。UNIAA-Bench包括三个部分:感知部分包含5354个多项选择题,描述部分包含501个专家标注的长文本,评估部分包含4个主流的IAA数据集。实验结果表明,UNIAA-LLaVA在所有层次的UNIAA-Bench上都表现出竞争力,尤其是在美学感知方面,甚至接近初级人类水平。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/80128.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker 渡渡鸟镜像同步站 使用教程

Docker 渡渡鸟镜像同步站 使用教程 🚀 介绍 Docker.aityp.com(渡渡鸟镜像同步站)是一个专注于为国内开发者提供 Docker 镜像加速和同步服务的平台。它通过同步官方镜像源(如 Docker Hub、GCR、GHCR 等),为…

Unity:AddTorque()(增加旋转力矩)

目录 什么是 AddTorque()? 第一性原理出发:什么是 Torque(力矩)? Torque 公式 Unity 中 AddTorque 的工作原理 参数属性 🔍 Linear Drag(线性阻力) 线性阻力模拟的现实情况&…

async/await的另一种食用方法

在JavaScript/TypeScript的异步编程中,async/await让我们的代码看起来更像是同步的,极大地提高了可读性。然而,错误处理仍然是一个需要仔细考虑的问题。今天我要分享一种优雅的错误处理模式,它能让你的异步代码更加简洁。 传统tr…

计算机网络 - stp生成树实验

【实验假设】 我们使用 Cisco Packet Tracer 或类似的模拟软件,或物理的 Cisco 交换机。 交换机初始为默认配置(或已通过 write erase 和 reload 清除配置)。 PC 已配置 IP 地址如下(示例): PC0: 192.168…

浅析 Spring 中 FactoryBean 的实现与使用

浅析 Spring 中 FactoryBean 的实现与使用 一、FactoryBean核心机制剖析二、高级应用场景与实战三、框架级应用案例解析四、FactoryBean常见面试题 一、FactoryBean核心机制剖析 1. 本质与双重角色 FactoryBean是Spring容器中用于定制化对象创建的核心接口(org.spri…

vue3 element-plus 输入框回车跳转页面问题处理

问题描述&#xff1a; 当页面搜索条件只有一个的情况下&#xff0c;输入框不管有没有值&#xff0c;回车后会跳转页面 解决办法&#xff0c;给表单添加 submit.prevent <el-form ref"ruleForm" :model"search" label-width"120px" class&qu…

(51单片机)LCD展示动画(延时函数)(LCD1602教程)

前言&#xff1a; 前面我们说过&#xff0c;之前LCD1602模块有点难&#xff0c;但是现在&#xff0c;我们通过几遍博客的学习&#xff0c;今天来讲一下LCD1602的原理 演示视频&#xff1a; LCD1602流动 源代码&#xff1a; main.c #include <STC89C5xRC.H> #include &q…

深入了解 OpenIddict:实现 OAuth 2.0 和 OpenID Connect 协议的 .NET 库

在现代 Web 开发中&#xff0c;身份验证和授权是安全性的重要组成部分。随着对安全性的要求不断增加&#xff0c;OAuth 2.0 和 OpenID Connect&#xff08;OIDC&#xff09;协议已经成为许多应用程序的标准身份验证方式。而 OpenIddict&#xff0c;作为一个用于实现 OAuth 2.0 …

【C++游戏引擎开发】第30篇:物理引擎(Bullet)—软体动力学系统

一、软体动力学理论体系 1.1 连续体力学基础 1.1.1 变形梯度张量 物体运动可描述为映射函数: x = ϕ ( X , t ) \mathbf{x} = \phi(\mathbf{X},t) x

Android Compose 层叠布局(ZStack、Surface)源码深度剖析(14)

Android Compose 层叠布局&#xff08;ZStack、Surface&#xff09;源码深度剖析 一、引言 在 Android 应用开发领域&#xff0c;用户界面&#xff08;UI&#xff09;的设计与实现一直是至关重要的环节。随着技术的不断演进&#xff0c;Android Compose 作为一种全新的声明式…

性能优化实践:内存优化技巧

性能优化实践&#xff1a;内存优化技巧 在Flutter应用开发中&#xff0c;内存优化是提升应用性能的关键环节之一。本文将从实战角度深入探讨Flutter内存优化的各种技巧&#xff0c;帮助你构建高性能的Flutter应用。 一、内存分析工具使用 1. DevTools内存分析器 启动DevTool…

2025-05-07 Unity 网络基础8——UDP同步异步通信

文章目录 1 UDP 概述1.1 通信流程1.2 TCP 与 UDP1.3 UDP 分包1.4 UDP 黏包 2 同步通信2.1 服务端2.2 客户端2.3 测试 3 异步通信3.1 Bgin / End 方法3.2 Async 方法 1 UDP 概述 1.1 通信流程 ​ 客户端和服务端的流程如下&#xff1a; 创建套接字 Socket。用 Bind() 方法将套…

如何减少锁竞争并细化锁粒度以提高 Rust 多线程程序的性能?

在并发编程中&#xff0c;锁&#xff08;Lock&#xff09;是一种常用的同步机制&#xff0c;用于保护共享数据免受多个线程同时访问造成的竞态条件&#xff08;Race Condition&#xff09;。然而&#xff0c;不合理的锁使用会导致严重的性能瓶颈&#xff0c;特别是在高并发场景…

AGV智能搬运机器人:富唯智能引领工业物流高效变革

在智能制造与工业4.0深度融合的今天&#xff0c;物流环节的高效与精准已成为企业核心竞争力的关键。富唯智能凭借其自主研发的AGV智能搬运机器人&#xff0c;以创新技术重塑工业物流标准&#xff0c;助力企业实现降本增效的跨越式发展。 一、技术突破&#xff1a;精准导航与智能…

K8s 资源分类

K8s 资源分类图谱 内置资源的分类 1、工作负载相关&#xff1a; Pod&#xff1a;最小的部署单元&#xff0c;包含一个或多个容器。 Deployment&#xff1a;管理无状态应用的副本和滚动更新。 StatefulSet&#xff1a;适用于有状态应用&#xff08;如数据库&#xff09;&#…

VLM-AD:通过视觉语言模型监督实现端到端自动驾驶

《VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision》2024年12月发表&#xff0c;来自Cruise和美国东北大学的论文。 人类驾驶员依靠常识推理来驾驭多样化和动态的现实世界场景。现有的端到端&#xff08;E2E&#xff09;自动驾驶&#xff0…

目标检测中的损失函数(三) | SIoU WIoUv1 WIoUv2 WIoUv3

&#x1f680;该系列将会持续整理和更新BBR相关的问题&#xff0c;如有错误和不足恳请大家指正&#xff0c;欢迎讨论&#xff01;&#xff01;&#xff01; SCYLLA-IoU&#xff08;SIoU&#xff09;来自挂在2022年arxiv上的文章&#xff1a;《SIoU Loss: More Powerful Learnin…

http Status 400 - Bbad request 网站网页经常报 HTTP 400 错误,清缓存后就好了的原因

目录 一、HTTP 400 错误的常见成因(一)问题 URL(二)缓存与 Cookie 异常(三)请求头信息错误(四)请求体数据格式不正确(五)文件尺寸超标(六)请求方法不当二、清缓存为何能奏效三、其他可以尝试的解决办法(一)重新检查 URL(二)暂时关闭浏览器插件(三)切换网络环…

【DeepMLF】具有可学习标记的多模态语言模型,用于情感分析中的深度融合

这是一篇我完全看不懂的论文,写的好晦涩,适合唬人,所以在方法部分我以大白话为主 abstract 在多模态情感分析(MSA)中,多模态融合已经得到了广泛的研究,但融合深度和多模态容量分配的作用还没有得到充分的研究。在这项工作中,我们将融合深度、可扩展性和专用多模容量作…

【ASP.net】在Windows 11上安装IIS并测试C# Web项目的踩坑实录

摘要 多年未接触.NET技术栈的田辛老师&#xff0c;最近因项目需求重新搭建测试环境。本文记录了Windows 11环境下安装IIS服务的全过程&#xff0c;以及一个让开发者抓狂的“空白页面”问题的解决方案。 1. 基础环境配置 工欲善其事&#xff0c;必先利其器。本次环境搭建选择…