多模态大语言模型arxiv论文略读(三十四)

请添加图片描述

SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models

➡️ 论文标题:SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models
➡️ 论文作者:Yichen Shi, Yuhao Gao, Yingxin Lai, Hongyang Wang, Jun Feng, Lei He, Jun Wan, Changsheng Chen, Zitong Yu, Xiaochun Cao
➡️ 研究机构: Shanghai Jiao Tong University、Shijiazhuang Tiedao University、Xiamen University、Eastern Institute of Advanced Study、University of California, Los Angeles、NLPR, CASIA、Shenzhen University、Great Bay University、Sun Yat-sen University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在各种视觉领域(如通用对象识别和定位)中展示了卓越的问题解决能力,基于强大的视觉语义表示和语言推理能力。然而,MLLMs是否对细微的视觉欺骗/伪造线索敏感,以及它们在面部攻击检测领域的表现如何,仍是一个未探索的领域。当前的面部攻击检测模型通常专注于单一模态或特定类型的欺骗攻击,缺乏对更广泛和多样攻击场景的适应性。
➡️ 研究动机:为了探索MLLMs在面部攻击检测领域的应用潜力和优势,研究团队引入了一个新的基准测试——SHIELD,用于评估MLLMs在面部欺骗和伪造检测任务中的能力。通过设计多项选择和真假问题,评估多模态面部数据,旨在为未来的生物识别安全提供有价值的见解和方法。
➡️ 方法简介:研究团队构建了SHIELD基准测试,包括面部反欺骗任务和面部伪造检测任务。对于面部反欺骗任务,评估了三种不同的模态(RGB、红外、深度)在四种类型的呈现攻击(打印攻击、重放攻击、刚性面具、纸面具)下的表现。对于面部伪造检测任务,评估了基于GAN和扩散模型的数据,同时考虑了视觉和声学模态。每个问题都在零样本和少样本测试中进行了评估,包括标准设置和链式思维(COT)设置。
➡️ 实验设计:实验在多个公开数据集上进行,包括WMCA数据集(用于面部反欺骗任务)和FaceForensics++数据集(用于面部伪造检测任务)。实验设计了不同类型的攻击(如打印攻击、重放攻击、刚性面具、纸面具)和不同的模态(RGB、红外、深度),以及不同类型的伪造技术(如Deepfakes、Face2Face、FaceSwap、NeuralTextures)。每个任务都设计了真假问题和多项选择问题,以全面评估MLLMs在不同条件下的表现。此外,研究团队还提出了一种新的多属性链式思维(MA-COT)范式,用于描述和判断面部图像的各种任务特定和任务无关属性,提供丰富的任务相关知识,以挖掘细微的欺骗/伪造线索。

MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark

➡️ 论文标题:MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark
➡️ 论文作者:Dongping Chen, Ruoxi Chen, Shilin Zhang, Yinuo Liu, Yaochen Wang, Huichi Zhou, Qihui Zhang, Yao Wan, Pan Zhou, Lichao Sun
➡️ 研究机构: 华中科技大学、浙江工业大学、LAIR Lab(Lehigh University)
➡️ 问题背景:多模态大语言模型(MLLMs)在生成内容方面取得了显著进展,尤其是在文本生成、代码生成和视频合成等领域。然而,评估MLLMs的效用面临巨大挑战,主要是因为缺乏与人类偏好对齐的多模态基准。受LLM-as-a-Judge概念的启发,本文提出了一种新的基准,称为MLLM-as-a-Judge,用于评估MLLMs在不同模态任务中的辅助判断能力。
➡️ 研究动机:尽管MLLMs在某些任务中表现出与人类偏好高度一致的能力,但在评分评估和批量排名任务中,这些模型与人类偏好的差异显著。此外,研究发现,即使在高级模型如GPT-4V中,也存在多种偏见、幻觉响应和判断不一致的问题。这些发现强调了在将MLLMs视为可靠评估者之前,需要进行改进和进一步研究。
➡️ 方法简介:研究团队构建了一个包含14个数据集的综合基准,涵盖图像描述、数学推理、文本阅读和信息图理解等任务,共收集了4,414个图像-指令对。随后,使用六个主流的MLLMs生成响应,并通过人类评估者进行严格注释,以确保对MLLMs判断的公正和全面评估。
➡️ 实验设计:实验在三个不同的评估设置下进行,包括评分评估、成对比较和批量排名。实验设计了不同任务和设置下的评估,以全面评估MLLMs在多模态任务中的判断能力。研究发现,GPT-4V在所有任务和设置中表现最佳,而其他模型如Gemini、LLaVA和CogVLM则表现较差。此外,研究还揭示了MLLMs在判断过程中存在的幻觉、偏见和不一致问题。

SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark

➡️ 论文标题:SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark
➡️ 论文作者:Zhenwen Liang, Kehan Guo, Gang Liu, Taicheng Guo, Yujun Zhou, Tianyu Yang, Jiajun Jiao, Renjie Pi, Jipeng Zhang, Xiangliang Zhang
➡️ 研究机构: University of Notre Dame、New York University、Hong Kong University of Science and Technology
➡️ 问题背景:当前的多模态问答(Multimodal Question Answering, MMQA)基准测试主要集中在小学到大学水平,但忽略了高中和大学入学水平这一关键教育阶段。这一阶段的学习内容对人类学习过程至关重要,但现有的基准测试要么过于简单,要么难度过高,无法全面评估AI模型在这一阶段的表现。
➡️ 研究动机:为了填补这一空白,研究团队开发了一个新的基准测试——SceMQA(Science College Entrance Level Multimodal Question Answering),专门针对高中和大学入学水平的多模态科学问题。SceMQA涵盖了数学、物理、化学和生物四个核心科学科目,旨在评估AI模型在解决复杂科学问题时的多模态理解和推理能力。
➡️ 方法简介:SceMQA包含261个问题,每个科目平均65个问题,问题形式包括选择题和自由回答题。每个问题都配有详细的解答和解释,并且每个问题都关联了特定的知识点。此外,SceMQA还设计了基于同一背景但不同问题的题组,以测试模型的深度理解和推理能力。
➡️ 实验设计:研究团队在SceMQA上评估了多个开源和闭源的多模态大语言模型(MLLMs),包括InstructBLIP、MiniGPT4、LLaVA、Google Bard、Gemini Pro和GPT4-V。实验设置了零样本、少样本和仅文本三种模式,以全面评估模型在不同条件下的表现。结果表明,即使是性能最强的模型(如GPT4-V),在SceMQA上的准确率也仅为50%到60%,显示出进一步研究和开发的必要性。

λ λ λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space

➡️ 论文标题: λ λ λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space
➡️ 论文作者:Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang
➡️ 研究机构: Arizona State University
➡️ 问题背景:当前的个性化文本到图像(P-T2I)生成模型在实现高保真度和多样性方面取得了显著进展,但多主体驱动的个性化生成仍面临资源效率低下和泛化能力不足的问题。现有的方法,如Hypernetworks和多模态大语言模型(MLLMs),虽然能够实现快速个性化,但需要大量的计算资源,从600到12300 GPU小时不等。这些方法依赖于潜在扩散模型(LDMs)的潜在空间,导致资源消耗巨大,且结果不一致。
➡️ 研究动机:为了提高多概念个性化图像生成的资源效率,研究团队提出了一种新的训练策略,即λ-ECLIPSE,该策略在预训练的CLIP模型的潜在空间中工作,而不需要依赖扩散UNet模型。研究旨在通过减少对扩散模型的依赖,提高多主体驱动个性化生成的效率和性能。
➡️ 方法简介:λ-ECLIPSE通过利用UnCLIP T2I模型的特性,将输出空间与CLIP视觉空间对齐,而不是CLIP文本空间。该方法接受多张图像和文本指令作为输入,估计相应的视觉嵌入,这些嵌入可以被冻结的扩散UNet模型用于生成图像。此外,λ-ECLIPSE还引入了图像-文本交错预训练策略,通过创建200万高质量的图像-文本对,将文本嵌入替换为相应的图像嵌入,以优化映射到目标潜在空间的过程。
➡️ 实验设计:研究在Dreambench、Multibench和ConceptBed三个公开数据集上进行了实验,评估了λ-ECLIPSE在单主体和多主体驱动个性化生成任务中的性能。实验设计了不同的控制条件,如Canny边缘图,以评估模型在不同条件下的表现。实验结果表明,λ-ECLIPSE在仅34M参数和74 GPU小时的训练下,能够实现与大型模型相当的性能,同时在概念和组成对齐方面表现出色。

LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education

➡️ 论文标题:LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education
➡️ 论文作者:Unggi Lee, Minji Jeon, Yunseo Lee, Gyuri Byun, Yoorim Son, Jaeyoon Shin, Hongkyu Ko, Hyeoncheol Kim
➡️ 研究机构: Korea University, University of Nebraska-Lincoln, Seoul Metropolitan Office of Education, Seoul National University, Seoul National University of Education
➡️ 问题背景:尽管各种AI系统在不同领域支持学习方面取得了进展,但在艺术鉴赏教育中,AI辅助的应用尚未得到广泛探索。艺术鉴赏通常被视为少数人的精英活动,许多人在日常生活中遇到艺术时会感到 intimidat 或缺乏信心。缺乏有效的指导和教育阻碍了人们与艺术的深入互动。本研究探讨了多模态大语言模型(MLLMs)在艺术鉴赏教育中的应用,特别是开发了 LLaVA-Docent,旨在作为艺术鉴赏的个人导师。
➡️ 研究动机:研究旨在通过开发 LLaVA-Docent,解决艺术鉴赏教育中的挑战,如缺乏个性化反馈、互动有限等问题。研究团队希望通过结合建构主义教学理论和AI技术,提供一种新的艺术鉴赏教育方法,使艺术鉴赏更加可及和有意义。
➡️ 方法简介:研究团队采用设计与开发研究(DDR)方法,通过迭代增强设计和开发 LLaVA-Docent。研究包括六个阶段:原型开发、文献回顾与初步验证、数据设计框架的验证与精炼、数据生成、模型训练和模型评估。研究团队还建立了一个虚拟对话数据集,用于训练 LLaVA-Docent,并通过定量和定性方法评估了模型的性能。
➡️ 实验设计:研究团队使用了 vicuna-13b-v1.5 作为语言模型,clip-vit-large-patch14 作为图像编码器,并通过线性层进行模态投影。模型训练分为预训练和微调两个阶段。预训练阶段使用了 cc3m_595k_images 数据集,微调阶段使用了 LLaVA-Instruct-150K 数据集。模型评估包括与 GPT-4 的对比测试,以及基于 Anderson 的关键阶段理论的对话质量评估。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/78055.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity InputSystem触摸屏问题

最近把Unity打包后的windows软件放到windows触摸屏一体机上测试,发现部分屏幕触摸点击不了按钮,测试了其他应用程序都正常。 这个一体机是这样的,一个电脑机箱,外接一个可以触摸的显示屏,然后UGUI的按钮就间歇性点不了…

AI打开潘多拉魔盒?当深度伪造成为虚假信息的核动力引擎

引言:虚假信息——数字时代的“隐形武器” 在人工智能(AI)与社交媒体深度融合的今天,虚假信息(Disinformation)已成为全球社会面临的最严峻挑战之一。 source: Gartner.(2024). 2025 Top Strategic Techno…

MySQL的图形管理工具-MySQL Workbench的下载安装及使用【保姆级】

MySQL的图形管理工具-MySQL Workbench的下载安装及使用 下载安装使用Workbench 创建数据库Workbench 创建数据表数据表中的增删改增加数据 删除数据修改数据 下载 MySQL的图形管理工具有很多,常用的有MySQL Workbench、phpMyAdmin和Navicat等软件。我选择了MySQL W…

Spring Security认证流程

认证是Spring Security的核心功能之一,Spring Security所提供的认证可以更好地保护系统的隐私数据与资源,只有当用户的身份合法后方可访问该系统的资源。Spring Security提供了默认的认证相关配置,开发者也可以根据自己实际的环境进行自定义身…

程序员鱼皮最新项目-----AI超级智能体教程(一)

文章目录 1.前言1.什么是AI大模型2.什么是多模态3.阿里云百炼平台介绍3.1文本调试展示3.2阿里云和dashscope的关系3.3平台智能体应用3.4工作流的创建3.5智能体编排应用 1.前言 最近鱼皮大佬出了一套关于这个AI 的教程,关注鱼皮大佬很久了,鱼皮大佬确实在…

《Pinia 从入门到精通》Vue 3 官方状态管理 -- 进阶使用篇

《Pinia 从入门到精通》Vue 3 官方状态管理 – 基础入门篇 《Pinia 从入门到精通》Vue 3 官方状态管理 – 进阶使用篇 《Pinia 从入门到精通》Vue 3 官方状态管理 – 插件扩展篇 目录 Store 的模块化设计4.1 多模块结构设计✅ 推荐目录结构(中大型项目) …

西甲001:奥萨苏纳VS塞维利亚

西甲001:奥萨苏纳VS塞维利亚 奥萨苏纳主场强势力擒塞维利亚 奥萨苏纳中场核心蒙卡约纳上轮联赛早段伤退,本轮将由巴勃罗-伊瓦涅斯顶替首发。当家射手布迪米尔状态爆棚,近两轮斩获3球,本赛季联赛已轰入18球创生涯新高,将…

C语言编程--15.四数之和

题目: 给你一个由 n 个整数组成的数组 nums ,和一个目标值 target 。请你找出并返回满足下述全部条件且不重复的四元组 [nums[a], nums[b], nums[c], nums[d]] (若两个四元组元素一一对应,则认为两个四元组重复)&…

2025.04.23【探索工具】| STEMNET:高效数据排序与可视化的新利器

文章目录 1. STEMNET工具简介2. STEMNET的安装方法3. STEMNET常用命令 1. STEMNET工具简介 在生物信息学领域,分析和处理大规模数据集是研究者们面临的日常挑战。STEMNET工具应运而生,旨在提供一个强大的平台,用于探索和分析单细胞RNA测序&a…

Day-3 应急响应实战

应急响应实战一:Web入侵与数据泄露分析 1. Web入侵核心原理 ​​漏洞利用路径​​ 未授权访问:弱口令(如空密码/默认口令)、目录遍历漏洞代码注入攻击:JSP/ASP木马、PHP一句话木马(利用eval($_POST[cmd])&…

两段文本比对,高亮出差异部分

用法一:computed <div class"card" v-if"showFlag"><div class"info">*红色背景为已删除内容&#xff0c;绿色背景为新增内容</div><el-form-item label"与上季度比对&#xff1a;"><div class"comp…

Python中的 for 与 迭代器

文章目录 一、for 循环的底层机制示例&#xff1a;手动模拟 for 循环 二、可迭代对象 vs 迭代器关键区别&#xff1a; 三、for 循环的典型应用场景1. 遍历序列类型2. 遍历字典3. 结合 range() 生成数字序列4. 遍历文件内容 四、迭代器的自定义实现示例&#xff1a;生成斐波那契…

Pytest教程:为什么Pytest要用插件模式?

目录 一、历史背景:测试框架的局限性与Pytest的设计哲学 1.1 早期测试框架的困境 1.2 Pytest的模块化设计 二、横向对比:插件机制如何让Pytest脱颖而出 2.1 与Unittest/Nose的对比 2.2 插件模式的架构优势 三、插件模式的核心优势解析 3.1 可扩展性:从单元测试到全链…

【深度】如何通过MCP实现多智能体之间的协同

来源&#xff1a;腾讯技术工程、infoQ、原力注入 自 OpenAI 于 2023 年发布函数调用功能以来&#xff0c;我一直在思考如何构建一个开放的智能体与工具使用生态系统。随着基础模型愈发智能化&#xff0c;智能体与外部工具、数据和 API 的交互能力却日益碎片化&#xff1a;开发…

NVIDIA自动驾驶安全与技术读后感

ll在阅读了 NVIDIA 自动驾驶安全报告后&#xff0c;我对该公司致力于推进自动驾驶汽车&#xff08;AV&#xff09;技术、同时优先考虑安全和标准化的承诺印象深刻。它揭示了 NVIDIA 在功能安全、法规合规性以及与全球标准组织合作方面的严谨态度。    报告中最引人注目的部分…

关于nginx,负载均衡是什么?它能给我们的业务带来什么?怎么去配置它?

User 关于nginx&#xff0c;我还想知道&#xff0c;负载均衡是什么&#xff1f;它能为我的业务带来什么&#xff1f;怎么去配置它&#xff1f; Assistant 负载均衡是 Nginx 另一个非常强大的功能&#xff0c;也是构建高可用、高性能应用的关键技术之一。我们来详细了解一下。 …

前端如何优雅地对接后端

作为一名前端开发者&#xff0c;与后端对接是我们日常工作中不可避免的一部分。从API设计的理解到错误处理的优雅实现&#xff0c;前端需要的不只是调用接口的代码&#xff0c;更是一种协作的艺术。本文将从Vue 3项目出发&#xff0c;分享如何与后端高效协作&#xff0c;减少联…

PYTHON用几何布朗运动模型和蒙特卡罗MONTE CARLO随机过程模拟股票价格可视化分析耐克NKE股价时间序列数据

原文链接&#xff1a;http://tecdat.cn/?p27099 金融资产/证券已使用多种技术进行建模。该项目的主要目标是使用几何布朗运动模型和蒙特卡罗模拟来模拟股票价格。该模型基于受乘性噪声影响的随机&#xff08;与确定性相反&#xff09;变量&#xff08;点击文末“阅读原文”获取…

头歌之动手学人工智能-机器学习 --- PCA

目录 第1关&#xff1a;维数灾难与降维 第2关&#xff1a;PCA算法流程 任务描述 编程要求 测试说明 第3关&#xff1a;sklearn中的PCA 任务描述 编程要求 测试说明 第1关&#xff1a;维数灾难与降维 第2关&#xff1a;PCA算法流程 任务描述 本关任务&#xff1a;补充…

IOMUXC_SetPinMux的0,1参数解释

IOMUXC_SetPinMux(IOMUXC_ENET1_RX_DATA0_FLEXCAN1_TX, 0); 这里的第二个参数 0 实际上传递给了 inputOnfield&#xff0c;它控制的是 SION&#xff08;Software Input On&#xff09;位。 当 inputOnfield 为 0 时&#xff0c;SION 关闭&#xff0c;此时引脚的输入/输出方向由…