JarvisIR

news/2025/10/15 18:32:08/文章来源:https://www.cnblogs.com/Upwardxx/p/19144014

一、第一页

1、现实世界中的恶略天气表现出耦合的退化(雨天、雪天、雾天等等往往还伴随着雨滴、模糊、光晕等)。

2、不良天气图像复原方法主要有三种:任务专用法、一体化方法、整合多种专用模型。
1)任务专用法:针对于特定的退化类型,且需要特定退化类型的先验知识,而真实世界的退化是未知且耦合的。
2)一体化方法:需要以监督方式对合成数据集进行训练,这与真实世界数据存在显著的差距。
3)整合多种专用模型:该策略对任务顺序高度敏感,顺序的微小改变可能造成性能显著下降。

3、我们知道,大型语言模型(LLM)在推理、决策和与环境的交互方面很出色,我们同样可以将视觉语言模型(VLM)充当控制器来管理公开可用的专门恢复模型,自主规划任务,并选择模型来促进综合恢复系统的开发
但VLM需要大量的配对数据。在现实世界的场景中,虽然存在大量真实的退化数据,但缺乏相应的标签阻碍了监督微调方法的实施,为了解决这个问题并利用大规模的未标记数据,我们设计了一个基于人类反馈微调框架,允许以无监督的方式训练VLM。

二、第二页

1、JarvisIR是一个VLM驱动的Agent,集成了多个专用修复模型。JarvisIR可以自主管理和协调多个专用恢复模型,以解决耦合的天气退化问题。

2、CleanBench数据集:包括15w个合成数据集和8w个CleanBench-Real。每一组数据都是一个三元组“用户指令-退化图像-修复响应”

三、下面详细说一下数据集和训练逻辑:

image

首先是合成数据集部分:

退化图像:
1)先从公开数据集里挑“高质量白天图”(Q-instruct工具可以过滤掉模糊、过曝的图,只留“高质量清晰度基础图”)。
2)用“物理模型+图像变换技术”(P图)给上面得到的清晰图加雨点、模糊、噪声等等,模拟恶略天气效果。

下面给每张上面得到的退化图配“用户指令-修复响应”对。

用户指令:
用“Self-instruct(自指令策略)”生成指令---先让GPT-4v为每张退化图生成20条候选指令,再人工筛选掉模糊、重复的,为每张图留5条有效指令,以让模型适应不同用户的表达方式。

image

修复响应:
1)“chain-of-thought” (COT)思维链:用DepictQA-Wild(一种图像质量评估模型)评估退化图。

image

2)上面的COT相当于诊断,下面要生成最优修复步骤+模型选择
用“穷举搜索”的方法,尝试所有可能的修复任务顺序,然后选修复效果最好(这里用到了奖励机制)的组合作为“标准答案”。

下面是CleanBench-Real部分:

退化图像
从互联网、公开真实数据集(ACDC、Raindrop Clarity)找80K张“真·恶略天气图”。

下面生成“指令-响应”对
用和“合成数据集”一样的方法(GPT-4v生成指令,DepictQA-Wild 做 COT 推理、穷举搜索选修复步骤),为这些“真·恶略天气图”配 “指令 - 响应”对

截止,数据集就构建好了。

训练逻辑:
上面的“合成数据集”用于模型训练的第一阶段监督微调(SFT)。从“CleanBench-Real”中4类场景中各挑500张(2K张)作为“评估集”,剩下的78K作为“训练集”,这是模型训练的第二阶段人类反馈对齐(MRRHF)

另外,SFT阶段是如何比较效果好坏的呢?

下面的MRRHF阶段,评价的是预测图的好坏。而SFT阶段,主要比较的是响应。

image

下面讲一下MRRHF阶段:

步骤1:生成候选响应(离线响应由SFT模型生成m1个,在线响应由Policy模型生成m2个,一共m1+m2个候选响应)

步骤2:通过下面的“多IQA模型融合”的奖励模型,得到每个响应的奖励分数S

步骤3:计算Policy模型对响应的概率分数p

image

步骤4:MRRHF的总损失函数

image

下面对Lrank解释一下:

image

image

这里补充一下,在MRRHF阶段,我们是没有退化图对应的清晰图的,我们怎么能知道效果好与不好呢?
解释:这里融合多个IQA模型(Q-instruct、MUSIQ、MANIQA)的分数

image

上面就介绍完了数据集和训练逻辑。

四、实验:
选了4个IQA指标:(MUSIQ、MANIQA、CLIP-IQA+、LIQE,分数越高越好)

image

和现有一体化方法比较:

image

五、消融实验
主要是两个(混合样本生成、熵正则化)的必要性。
混合样本生成:离线样本保证基础质量,在线样本扩大搜索空间。
熵正则化:有效提升相应多样性,避免模型“死记硬背”单一任务序列。

六、创新点:
1、构建了“指令-响应”对数据集。
2、提出MRRHF算法,提出混合样本生成和熵正则化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/937701.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

10/15

学习了有关统计系统的代码。

抖音麒麟福袋软件操作指南

抖音麒麟福袋软件操作指南第一步: 电脑安装比特浏览器 比特官网地址:https://www.bitbrowser.cn/?code=9b70975d 安装好之后打开注册,并且实名第二步:点击分组管理,创建一个自己的分组,点击确认第三步:创建浏览…

2025 印尼物流专线公司推荐榜:聚焦合规高效,深圳恒翔物流凭实力登榜

近年来,中国与印尼贸易往来持续升温,制造业外贸出口、跨境电商等领域的蓬勃发展,带动印尼物流专线需求大幅增长。海运、空运等专线服务已从外贸企业专属,逐步延伸至电商卖家、生产制造等多个群体。2025 年,随着中…

国金证券 QMT 云服务器上 重启后 无法自动登录,如何解决?

国金证券 QMT 云服务器上 重启后 无法自动登录,如何解决?2025-10-15 18:24 Kyle_Lee 阅读(0) 评论(0) 收藏 举报国金证券的QMT真恶心啊,有自动登录的勾选框, 也有倒计时但就是没有记住密码,不让登录, 非要…

人文创新研究:在意义的边界探寻新境

人文创新研究:在意义的边界探寻新境 ——声明Ai研究 引言 在人类文明演进进程中,人文创新作为一种独特的创新形态,承载着探索精神世界、重构意义系统的重要使命。与技术创新关注物质改造不同,人文创新的核心在于意…

平面图最小割与对偶图最短路 - 干

平面图 即所有边都不相交的图。 例:对偶图 将平面图中的面转为点,每条边连接其左右的两个面,一个朴素的例子:其对偶图为:对偶图最短路 所以对偶图与最小割有什么关系呢? 在最小割问题中,我们经常会遇到面对平面…

深入解析:Nodejs开发环境搭建

深入解析:Nodejs开发环境搭建pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco"…

项目管理:PERT/CPM

网络计划图 概念 表示整个项目的网络图,成为项目网络。描述一个项目需要三方面的信息:活动、次序、时间。通常有两类网络:用弧表示活动的项目网络(双代号法,AOA);用节点表示活动的项目网络(单代号法,AON)。 …

mysql版本升级 8.0.22升级到8.0.34

mysql版本升级 8.0.22升级到8.0.341.使用mysqldump全量备份所有数据库 输入mysqldump -uroot -p --all-databases > all_databases.sql 输入密码 查看当前所在目录是否产生all_databases.sql (因为是小版本升级所…

智能物联网的实时通信之钥——WebSocket

要实现设备间的无缝协同与实时反馈,离不开一个高效可靠的通信协议。WebSocket正是开启智能物联网实时交互之门的“钥匙”,它让数据流动不再等待,为智能家居、智慧城市等场景注入即时生命力。 一、WebSocket基础知识…

2025 苏州注册公司服务机构实用推荐:选择深度解析

2025 年上半年苏州新增市场主体达 8.2 万家,初创企业占比超 6 成,注册代理服务需求持续攀升。面对繁杂的市场选择,结合服务效率、政策适配、风险防控等核心维度,我们实测筛选出 5 家综合实力突出的机构,为创业者提…

可信AI研究获资助,10位博士生探索算法公平与隐私

某机构向宾夕法尼亚大学10名工程博士提供资助,支持其开展可信人工智能研究。研究重点包括算法公平性、隐私保护、可解释性及神经符号学习等技术方向,旨在构建安全可靠的人工智能系统。某机构资助10名工程博士生开展可…

LeetCode | 45. 跳跃游戏 II(转载)

给定一个非负整数数组,你最初位于数组的第一个位置。 数组中的每个元素代表你在该位置可以跳跃的最大长度。 你的目标是使用最少的跳跃次数到达数组的最后一个位置。 示例:输入: [2,3,1,1,4] 输出: 2 解释: 跳到最后一…

实用指南:【在Ubuntu 24.04.2 LTS上安装Qt 6.9.2】

实用指南:【在Ubuntu 24.04.2 LTS上安装Qt 6.9.2】pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas"…

实用指南:mysql_query函数:数据库世界的信使

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

基于MATLAB的车道线检测

一、核心算法流程 graph TD A[图像输入] --> B{预处理} B --> C[灰度转换] B --> D[ROI区域限制] C --> E[边缘检测] D --> E E --> F[颜色空间增强] F --> G[霍夫变换检测] G --> H[直线聚类…

卷积神经网络读书报告

卷积神经网络(CNN)读书报告: 一、 引言:为何需要卷积神经网络? 在深度学习席卷人工智能领域之前,处理图像、视频等网格化数据对于传统神经网络(如多层感知机)而言是一项极具挑战性的任务。以一张普通的1000x10…

在AI技术快速实现创意的时代,挖掘邮件营销系统新需求成为关键突破点

本文分析了一款开源邮件营销系统的核心功能和用户反馈,该系统提供完整的邮件营销解决方案,包括邮件发送、域名管理、数据分析等功能,通过用户反馈揭示了多个潜在改进方向。a.内容描述核心功能定位:该项目是一个开源…

完成一个商城购物车的程序.

完成一个商城购物车的程序。 要求: 1,用户先给自己的账户充钱:比如先充3000元。 2,有如下的一个格式: goods = [{"name": "电脑", "price": 1999}, {"name": "鼠标&quo…

RoI Pooling / Align

RoI Pooling 与 RoI Align 都是“把不同大小的候选框(RoI)变成固定尺寸特征图”的操作,但 RoI Pooling 用量化→粗糙对齐,RoI Align 用双线性插值→子像素对齐,后者精度更高,已成为 2025 年检测/分割标配。 下面…