解决GRPO优势归因错误,Chunk-GRPO让文生图模型更懂节奏

news/2025/11/1 19:07:53/文章来源:https://www.cnblogs.com/deephub/p/19183725

文本到图像(T2I)生成模型的发展速度超出很多人的预期。从SDXL到Midjourney,再到最近的FLUX.1,这些模型在短时间内就实现了从模糊抽象到逼真细腻的跨越。但问题也随之而来——如何让模型生成的不仅仅是"一张图",而是"正确的那张图"?这涉及到如何让AI理解人类在审美、风格和构图上的真实偏好。

强化学习(RL)成为解决这个问题的关键技术。通过将人类偏好分数作为奖励信号,可以对这些大模型进行微调。群体相对策略优化(GRPO)是近期比较热门的方案。但清华大学和快手的研究团队最近发现,这个方法存在一个隐藏的根本性缺陷。

这个缺陷会让模型学错东西,即便最终生成的图像看起来还不错。论文"SAMPLE BY STEP, OPTIMIZE BY CHUNK: CHUNK-LEVEL GRPO FOR TEXT-TO-IMAGE GENERATION"提出了一个叫Chunk-GRPO的解决方案,思路直接并且效果出众,算是训练生成模型思路上的一次转向。

GRPO的问题:不准确的优势归因

要理解Chunk-GRPO做了什么,得先搞清楚现有方法的问题出在哪。论文把这个问题叫做**"不准确的优势归因"**(inaccurate advantage attribution)。

可以用一个类比来说明。假设你在教学徒做酸面团面包,整个流程有17个步骤。学徒做了两个面包——面包A各方面都很棒,面包B勉强及格。作为师傅,你给A打了高分(+10),给B打了低分(+2)。

标准GRPO的做法相当于告诉学徒:"面包A的每一个步骤都比B好。"它把最终的高分奖励追溯性地分配给制作A的所有17个步骤。

但实际情况可能是,做A的第3步时学徒差点打翻面团,而做B的第3步手法其实很标准。标准GRPO仍然会奖励A的糟糕第3步,惩罚B的正常第3步,就因为最终结果不同。这就是"不准确的优势归因"——模型被强化的某个具体动作,单独看其实是个错误。训练几千次之后,这种错误的反馈信号会让模型困惑,导致训练不稳定,效果也达不到最优。

论文用图像生成的真实案例展示了这个问题:

 

https://avoid.overfit.cn/post/801e16bc6ddb464bbeb532f74cdceb91

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/952959.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025 年 10 月虎头鲨/沙塘鳢/呆子鱼/虾虎鱼养殖厂家推荐排行榜,鱼苗批发,成鱼价格,中华河川沙鳢,土憨巴塘鳢专业养殖公司精选!

2025 年 10 月虎头鲨/沙塘鳢/呆子鱼/虾虎鱼养殖厂家推荐排行榜,鱼苗批发,成鱼价格,中华河川沙鳢,土憨巴塘鳢专业养殖公司精选! 随着水产养殖业的快速发展,虎头鲨、沙塘鳢、呆子鱼和虾虎鱼等特色淡水鱼类的市场需…

2025 年 11 月人造草坪足球场厂家最新推荐,产能、专利、环保三维数据透视!

在人造草坪足球场采购中,产能稳定性、技术创新性与环保合规性已成为衡量企业实力的核心标尺。据行业协会 11 月发布的《行业核心竞争力报告》显示,76% 的采购方将这三项指标列为合作决策的首要依据,而同时满足三维指…

2025 年 11 月人造草坪足球场厂家最新推荐,榜单透视与选购要点!

人造草坪足球场采购中,采购方常因缺乏清晰的榜单参考与选购标准,陷入 “盲目对比、决策困难” 的困境。据行业协会 11 月发布的《采购行为调研报告》显示,82% 的采购方希望获得兼具权威性与实用性的厂家榜单,且 65…

2025年11月人造草坪足球场厂家最新推荐,实力品牌深度解析采购无忧之选!

在人造草坪足球场采购过程中,品牌实力参差不齐导致的采购风险(如交付延期、质量不达标、售后缺失)成为采购方核心顾虑。据行业协会 11 月发布的《品牌实力与采购风险调研报告》显示,69% 的采购方因选择非实力品牌遭…

SpiritConfigTool.jar 做什么的

SpiritConfigTool.jar 做什么的✅ 用途概览在某篇技术博客中提到:“SCT(Spirit Config Tool)是 MaxLinear 提供的一款 Java-based 应用程序,也是开发 G.hn WAVE-2 应用工具和辅助诊断工具。” wpgdadatong.com根据…

agent框架

agent框架https://cloud.tencent.com/developer/news/2302074

agent框架

agent框架https://cloud.tencent.com/developer/news/2302074

解码LVGL基础

LVGL9.2 源码结构 LVGL9.2 源码按功能模块化划分,核心目录及文件的详细作用如下:路径 核心文件 / 子目录 功能说明/ CMakeLists.txt 顶层编译配置文件,控制整个工程的编译规则:- 可指定编译类型(静态库STATIC/ 动…

CSP-J2025 题解

拼数 思路 先考虑怎么把数字提取出来,可以拿一个字符串变量存储整个输入,然后遍历这个字符串,如果当前字符是 0 到 9 就可以通过将它减去 0 的方式放到一个整形数组中。 接下来考虑拼出最大的数,显然让这个数组从大…

CSP-S2025

流程是: T1-60pts -> T2-56pts -> T3-10pts -> T4-8pts -> T1-100pts

MySQL 慢查询日志slow query log - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025 年 11 月离心喷雾干燥机,振动流化床干燥机,带式干燥机厂家最新推荐,品牌深度解析采购无忧之选!

近期,行业权威协会针对离心喷雾干燥机、振动流化床干燥机、带式干燥机领域开展专项测评,通过对设备性能参数、生产企业技术实力、市场用户反馈等多维度数据采集分析,最终形成本次推荐榜单。测评过程中,不仅对设备的…

unity技巧备忘

在编辑器,检视面板 中执行代码 using UnityEngine; public class HighScore : MonoBehaviour { public bool resetHighScoreNow = false;private void OnDrawGizmos(){if (resetHighScoreNow){resetHighScoreNow …

前端开发技术栈

目录Nodejs参考资料 Nodejs 工具链: Node.js 是前端开发工具链的重要组成部分,例如用于构建工具、包管理器(如 npm)等,这些工具可以在本地开发环境中运行。 非直接开发: 虽然 Node.js 本身不直接属于前端,但它通…

SOA、ESB、微服务、分布式概念及专业名词阐述

SOA、ESB、微服务概念1 SOA 面向服务 SOA全称:Service Oriented Architecture,面向服务框架。它是一种设计理念,其中包含多个服务,服务之间通过相互依赖最终提供一系列完成的功能。各个服务通常以独立的形式部署运…

unity技巧

在编辑器,检视面板 中执行代码 using UnityEngine; public class HighScore : MonoBehaviour { public bool resetHighScoreNow = false;private void OnDrawGizmos(){if (resetHighScoreNow){resetHighScoreNow …

项目2:图书管理系统(数据库入门)

核心功能:添加图书(书名、作者、ISBN、出版年份) 搜索图书(按书名、作者) 更新图书信息 删除图书 获取图书统计(总数、按作者分组)技术栈:SQLModel数据库集成 基础查询和过滤 简单数据统计 错误处理挑战点:数…

CF2153B Bitwise Reversion | 数学 | 模拟

CF2153B Bitwise Reversion | 数学 | 模拟 题目描述 给定三个非负整数 \(x\),\(y\) 和 \(z\),判断是否存在三个非负整数 \(a\)、\(b\)、\(c\),满足以下三个条件:\(a \mathbin{\&} b = x\) \(b \mathbin{\&…

DRL-QLearning与DQN

强化学习领域中,Q-learning和深度Q网络(DQN)是两个具有里程碑意义的算法。Q-learning奠定了传统强化学习的基础,而DQN则开启了深度强化学习的新时代。本文将深入探讨这两种算法的核心概念和工作原理,帮助读者理解它…