MindGYM:一个用于增强视觉-语言模型推理能力的合成数据集框架,通过生成自挑战问题来提升模型的多跳推理能力。

2025-03-13,由中山大学和阿里巴巴集团的研究团队提出了MindGYM框架,通过合成自挑战问题来增强视觉-语言模型(VLMs)的推理能力。MindGYM框架通过生成多跳推理问题和结构化课程训练,显著提升了模型在推理深度和广度上的表现,同时减少了对大规模数据和计算资源的依赖。

 

一、研究背景

随着视觉-语言模型(VLMs)的发展,其在处理需要联合视觉和文本输入的任务中逐渐成为基础工具。然而,如何让这些模型具备鲁棒的、可迁移的推理能力仍然是一个挑战。目前,高质量的推理数据获取主要依赖于人工标注的数据集或计算成本高昂的自监督学习方法,这限制了模型的推理能力提升。

目前遇到的困难和挑战:

1、数据获取成本高:人工标注的数据集如OK-VQA和ScienceQA需要大量人力进行标注,难以大规模扩展。

2、自监督方法的局限性:现有的自监督合成方法(如MMInstruct和MMEvol)在跨模态和任务的泛化能力上表现不佳,无法紧密耦合视觉和文本语义。

3、推理能力提升的计算成本高:强化学习等推理能力提升方法计算成本高昂,限制了其实际应用。

 

链接地址:MINDGYM|视觉语言推理数据集|多模态认知任务数据集

 

二、让我们一起来看一下MindGYM

MindGYM是一个用于增强视觉-语言模型推理能力的合成数据集框架,通过生成自挑战问题来提升模型的多跳推理能力。

 

构建:

1、种子单跳问题合成:模型基于给定的背景文档生成逻辑相关的单跳问题,涵盖数学、科学、逻辑等多个语义领域。

2、挑战性多跳问题合成:将种子问题通过认知操作(如桥接、比较、视觉-文本对齐等)组合成多跳问题。

3、思维诱导课程微调:通过逐步训练,从有指导的推理到独立推理,提升模型的推理能力。

 

特点:

1、高数据效率:仅用400个合成样本即可实现显著性能提升。

2、计算效率:减少训练和推理成本。

3、泛化能力强:在不同任务和合成源上表现出色。

 

使用方法:

MindGYM框架通过合成数据直接注入训练过程,无需额外数据。用户可以通过调整合成模板和训练策略,将其应用于不同的视觉-语言模型。

 

基准测试:

在多个基准测试中,MindGYM显著优于现有方法,例如在MathVision-Mini任务中,仅用400个样本就实现了16%的性能提升。

 

 

MindGYM 框架架构由三个核心阶段组成:①种子单跳问题合成,②具有挑战性的多跳问题合成,以及③思维诱导式课程微调

 

首先:对文本(例如数学/生物问题)和多模态(文本+图像)上下文的认知感知自我合成。

然后:种子问题通过基于文本的策略(桥接、比较、时间)和多模态推理类型(视觉-文本对齐、空间推理、因果推断、上下文合成)相结合,形成自我挑战性问题。

最后:通过掩码任务学习,课程驱动的微调阶段将结构化的认知能力注入模型。

 

 

三、让我们一起来看一下MindGYM的应用

比如你正在准备一门化学考试,手头有一张复杂的化学反应图,上面画着各种分子结构、反应箭头,还有标注的反应条件。旁边还有一段文字描述,大概讲了这个反应的过程和一些关键信息。问题是,你得根据这张图和文字描述,推断出这个反应在特定条件下的产物是什么,或者这个反应需要在什么温度下才能顺利进行。

这时候,MindGYM就能派上大用场了!它就像是一个智能的“化学助教”,专门帮你训练这种复杂的推理能力。

首先,MindGYM会根据这张化学反应图和文字描述,生成一些基础的单跳问题。比如,它可能会问:“这个反应中的主要反应物是什么?”或者“图中箭头的方向代表什么含义?”这些问题就像是热身,帮助模型先熟悉一下基本的信息。

然后,MindGYM开始“出难题”了。它会把几个基础问题组合起来,生成一个更复杂的多跳问题。比如:“如果这个反应的温度升高到100摄氏度,产物会有什么变化?请结合图中的反应条件和文字描述进行推理。”这就需要模型不仅要理解图和文字的内容,还要能够把它们联系起来,进行多步推理。

在这个过程中,MindGYM还会让模型“说出”它的思考过程。比如说,模型可能会这样回答:“首先,我看到图中标注的反应条件是80摄氏度,产物是A和B。如果温度升高到100摄氏度,根据文字描述中的能量变化规律,反应可能会向生成更多C的方向进行,因为高温会促使反应向吸热方向移动……”

通过这种训练,模型就像是被“逼”着去深入思考科学问题,而不是简单地死记硬背。这样一来,当它真正面对类似的科学问题时,就能更准确地回答,比如在考试中或者在实际的科学研究里。而且,这种训练方式不仅适用于化学,还可以推广到物理、生物等其他科学领域,帮助模型更好地理解和推理各种复杂的科学概念。

 

 

论文中提到数据集:

 

数据集:ScienceQA

数据集介绍:这是一个大规模的多模态数据集,用于标注讲座和解释答案

数据集地址:TheMrguiller/ScienceQA|科学教育数据集|知识问答数据集

 

 

数据集:OK-VQA

数据集介绍:一个用于视觉问答的数据集,要求模型能够结合外部知识回答问题

数据集地址:ReplugLens/OK-VQA|视觉问答数据集|人工智能数据集

 

 

数据集:MMStar

数据集介绍:一个包含1500个挑战样本的多模态基准测试数据集。

数据集地址:Lin-Chen/MMStar

 

 

数据集:MathVista-Mini

数据集介绍:一个结合了多种数学和视觉任务的基准测试数据集,包含6141个样本。

数据集地址:MathVista-Mini

 

 

数据集:MathVision-Mini

数据集介绍:一个包含3040个高质量数学问题的数据集。

数据集地址:MathVision-Mini

 

 

数据集:GSM8K

数据集介绍:一个包含小学数学应用题的数据集,每个问题需要2到8步来解决

数据集地址:openai/gsm8k|数学应用题数据集|自然语言处理数据集

 

 

数据集:MATH

数据集介绍:MATH数据集是一个专注于数学问题解决的数据集,涵盖了代数、几何、数论等多个数学领域。该数据集由多个子集构成,每个子集针对不同的数学主题,旨在为机器学习和自然语言处理领域提供高质量的数学问题与解答数据。

数据集地址:MATH|数学求解数据集|教育技术数据集

 

 

数据集:GPQA

数据介绍:GPQA是一个由生物学、物理学和化学领域的专家编写的448个多选题数据集。该数据集的特点是问题质量高且极其困难,即使是具有博士学位或在读博士的专家也仅能达到65%的准确率,而高技能的非专家验证者仅有34%的准确率。数据集旨在用于研究未来AI系统在帮助解答非常困难问题时的可扩展监督方法,特别是在开发新科学知识时。

数据集地址:GPQA|科学问答数据集|AI监督学习数据集

 

数据集:MMEvol

数据集介绍:一个用于多模态推理的数据集,包含ScienceQA和DVQA两个子集

数据集地址:MMEvol|多模态数据数据集|数据增强数据集

 

 

数据集:LIMO

数据集介绍:一个用于文本推理的数据集,通过少量高质量数据提升模型性能

数据集地址:LIMO

 

 

数据集:Open-O1

数据集介绍:一个用于激活链式推理(CoT)的SFT数据集

数据集地址:​​​OpenO1-SFT|语言模型微调数据集|思维链推理数据集

 

更多免费的数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值。遇见数据集,领先的千万级数据集搜索引擎,实时追踪全球数据集,助力把握数据要素市场。 https://www.selectdataset.com/

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/73567.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

R语言零基础系列教程-01-R语言初识与学习路线

代码、讲义、软件回复【R语言01】获取。 R语言初识 R是一个开放的统计编程环境,是一门用于统计计算和作图的语言。“一切皆是对象”,数据、函数、运算符、环境等等都是对象。易学,代码像伪代码一样简洁,可读性高强大的统计和可视…

PythonWeb开发框架—Flask-APScheduler超详细使用讲解

1.定时任务的两种实现方式 1.1 用scheduler.task装饰任务 安装插件: pip install Flask-APScheduler pip install apscheduler 脚本实现: ###app.py##导入依赖库 from flask import Flask import datetime import config from flask_apscheduler i…

python_巨潮年报pdf下载

目录 前置: 步骤: step one: pip安装必要包,获取年报url列表 step two: 将查看url列表转换为pdf url step three: 多进程下载pdf 前置: 1 了解一些股票的基本面需要看历年年报,在巨潮一个个下载比较费时间&…

从0到1构建AI深度学习视频分析系统--基于YOLO 目标检测的动作序列检查系统:(2)消息队列与消息中间件

文章大纲 原始视频队列Python 内存视频缓存优化方案(4GB 以内)一、核心参数设计二、内存管理实现三、性能优化策略四、内存占用验证五、高级优化技巧六、部署建议检测结果队列YOLO检测结果队列技术方案一、技术选型矩阵二、核心实现代码三、性能优化策略四、可视化方案对比五…

React Native 如何使用 Expo 快速开发?

React Native是当下热门的跨平台移动开发框架,而Expo则是它的重要开发工具之一。Expo提供了一套完整的开发环境,使开发者无需安装Android Studio或Xcode也能快速运行React Native项目。它包含了众多内置API,如相机、地理位置、推送通知等&…

中考英语之09从句

1 宾语从句 定义 在主从复合句中充当宾语,位于及物动词、介词或复合谓语之后的从句。 引导词 综述: that(可省略)、if/whether、连接代词(what、which、who、whom、whose 等)和连接副词(when、…

平方矩阵问题

Ⅰ 回字形二维数组 #include <iostream> #include <iomanip> using namespace std; int main(){int n;while(cin>>n,n){for(int i0; i<n;i){for(int j0; j<n; j){int upi, downn-i1, leftj, rightn-j1;cout<<min(min(up,down),min(left,right)…

C++模版(复习)

1.泛型编程&#xff1a;编写与类型无关的通用代码&#xff0c;是代码复用的一种手段。模板是泛型编程的基础 2.函数模板的格式 template<typename T1,typename T2,…,typename Tn> 返回类型 函数名(参数列表) {   //函数体 } 3.template<class T1,class T2,…,class…

【sklearn 05】sklearn功能模块

sklearn功能模块 分类&#xff1a;识别某个对象属于那个类别回归&#xff1a;预测与对象相关联的连续值属性聚类&#xff1a;将相似对象自动分组降维&#xff1a;减少要考虑的随机变量的数量模型选择&#xff1a;比较、验证、选择参数和模型预处理&#xff1a;特征提取和归一化…

使用Qt创建悬浮窗口

在Qt中创建悬浮窗口&#xff08;如无边框、可拖动的浮动面板或提示框&#xff09;可以通过以下方法实现。以下是几种常见场景的解决方案&#xff1a; 方法1&#xff1a;使用无边框窗口 鼠标事件拖动 适用于自定义浮动工具窗口&#xff08;如Photoshop的工具栏&#xff09;。 …

《P4387 【深基15.习9】验证栈序列》

题目描述 给出两个序列 pushed 和 poped 两个序列&#xff0c;其取值从 1 到 n(n≤100000)。已知入栈序列是 pushed&#xff0c;如果出栈序列有可能是 poped&#xff0c;则输出 Yes&#xff0c;否则输出 No。为了防止骗分&#xff0c;每个测试点有多组数据&#xff0c;不超过 …

校园安全用电怎么保障?防触电装置来帮您

引言 随着教育设施的不断升级和校园用电需求的日益增长&#xff0c;校园电力系统的安全性和可靠性成为了学校管理的重要课题。三相智能安全配电装置作为一种电力管理设备&#xff0c;其在校园中的应用不仅能够提高电力系统的安全性&#xff0c;还能有效保障师生的用电安全&am…

【Git】--- 初识Git Git基本操作

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏&#xff1a; Git 本篇我们来初步认识Git企业级应用是什么&#xff0c;有什么用以及Git基本操作。 &#x1f3e0; 初始Git 提出问题 在日常生活中&#xff0c;我们进行…

数据治理下半场:如何用文化变革撬动企业数字化转型?

数据治理下半场:如何用文化变革撬动企业数字化转型? 一、打破认知茧房:从"数据恐惧症"到"数据生产力"二、重构协作生态:从"部门墙"到"数据共同体"三、建立责任体系:从"无人认领"到"终身责任制"​四、点燃创新…

Chat-Driven Business:灵活交互的新范式

1. 引言 一次偶然的机会&#xff0c;读到了CSDN上的一篇文章&#xff0c;自定义markdown的展示(很遗憾&#xff0c;时间有点久&#xff0c;找不到具体的链接了&#xff09;&#xff0c;当时我觉得这很有启发意义&#xff0c;因为我做的cli_assistant就是以markdown的形式返回的…

嵌入式裸机设计--MCU常用裸机架构有哪些?

为什么是裸机设计 792125321入群学习更高效&#xff01; 在MCU&#xff08;微控制器单元&#xff09;裸机开发中&#xff0c;我们常见的架构设计主要围绕如何高效管理资源和任务调度。认识这些开发方式&#xff0c;对我们开发一个小型项目来说及有好处&#xff01; 下面介绍…

python内置函数sum的用法

知识点 - sum 函数 基本语法 sum(iterable[, start]) iterable 是一个可迭代对象&#xff0c;例如列表、元组、集合等&#xff0c;其中的元素通常是数字类型&#xff08;整数或浮点数&#xff09;。 start 是一个可选参数&#xff0c;表示累加的起始值&#xff0c;默认为 0。…

编程语言的几种常见的分类方法

一、 按照编程范式分类 命令式编程语言 强调通过语句来改变程序状态&#xff0c;如 C、Pascal、Fortran 等。 面向对象编程语言 基于对象和类的概念&#xff0c;支持封装、继承和多态&#xff0c;如 Java、C、Python、Ruby 等。 函数式编程语言 注重不可变性和纯函数&#xf…

基于DeepSeek×MWORKS 2025a的ROM Builder自动化降阶实战

一、引言 当前&#xff0c;工业仿真领域正经历着前所未有的「智能焦虑」——当自动驾驶算法已能理解城市路网&#xff0c;当大模型开始设计蛋白质结构&#xff0c;这个驱动大国重器研发的核心领域&#xff0c;却仍在与千万级方程组成的庞杂模型艰难博弈。传统仿真降阶如同在数…

配置单区域OSPF实验和报文抓包和分析

一、配置单区域OSPF概念&#xff1a; &#xff08;1&#xff09;配置单区域OSPF&#xff08;Open Shortest Path First&#xff09;是一种常见的动态路由协议配置方式&#xff0c;主要用于在同一区域内实现路由信息的交换和路由表的更新。 &#xff08;2&#xff09;OSPF是一…