R1-Omni

R1-Omni

news/2025/7/14 2:34:13/文章来源:https://blog.csdn.net/qq_38742161/article/details/147814812

一、Omni概述

Omni = 文本+视频+音频，全模态。

R1+Omni = 强化学习+全模态。

二、Omni举例-humanOmni

humanOmni：以人体姿态和人物交互为中心的全模态模型。

visual projector有3个，分别负责人脸标签、姿态检测、人和物交互。有点像moe。
text encoder 对visual projector进行fusion加权，通过文本区分不同的任务，对不同的视觉组件进行激活。

三、训练流程

冷启动 + Reinforcement Learning with Verifiable Reward (RLVR)

冷启动：少量（带COT）样本的sft。为了确保强化学习训练（RLVR）的稳定性，R1-Omni采用了一种冷启动（Cold Start）策略，旨在通过少量标注数据为模型赋予初步的推理能力。
可验证奖励的强化学习RLVR+组相对策略优化GRPO：与传统的基于人类反馈的强化学习（RLHF）不同，RLVR通过直接利用验证函数来评估输出，从而消除了中间奖励建模的需求。RLVR的核心在于简化奖励机制，同时确保与任务的内在正确性标准保持一致。
- reward 函数：格式+正确性，总奖励公式为：R=Racc+Rformat
- 准确率奖励（RaccRacc：若情感标签与真实值一致，奖励为1，否则为0。
- 格式奖励（RformatRformat：若输出严格符合<think>和<answer>标签格式，奖励为1，否则为0。
组相对策略优化（GRPO）
与传统方法如近端策略优化（PPO）不同。GRPO通过直接比较生成的响应组来评估候选策略的相对质量，从而简化了训练过程。

具体来说，GRPO首先为给定输入问题q生成G个不同的响应{o1,o2,…,oG}，然后根据预定义的奖励函数评估这些响应的奖励{r1,r2,…,rG}。为了确定每个响应的相对质量，GRPO通过计算均值和标准差来归一化奖励。

四、其它

1.如何理解训练中仅对answer进行reward，大模型可以学习调整think内容？

①在sft冷启动时，我们让大模型监督学习的内容包含<think>和<answer>，可以让大模型迅速的get到我们想要表达的业务逻辑。

②在强化学习过程中，仅对answer进行reward，此时需要发挥语言大模型自身的逻辑能力，对answer调整的同时match到相应的think。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/904783.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

linux中的日志分割

linux中的日志分割

1.问题背景，nginx日志过大不好删除 [rootlocalhost cron.daily]# cd /lk/nginx/log/ [rootlocalhost log]# ll 总用量 2386188 -rw-r--r--. 1 root root 2078699697 5月 9 13:02 access.log -rw-r--r--. 1 root root 11138 5月 6 10:28 error.log [rootloc…

阅读更多...

华为云Flexus+DeepSeek征文｜从开通到应用：华为云DeepSeek-V3/R1商用服务深度体验

华为云Flexus+DeepSeek征文｜从开通到应用：华为云DeepSeek-V3/R1商用服务深度体验

前言本文章主要讲述在华为云ModelArts Studio上开通DeepSeek-V3/R1商用服务的流程，以及开通过程中的经验分享和使用感受帮我更多开发者，在华为云平台快速完成 DeepSeek-V3/R1商用服务的开通以及使用入门注意：避免测试过程中出现部署失败等问…

阅读更多...

【机器学习-线性回归-5】多元线性回归：概念、原理与实现详解

【机器学习-线性回归-5】多元线性回归：概念、原理与实现详解

线性回归是机器学习中最基础且广泛应用的算法之一，而多元线性回归则是其重要扩展。本文将全面介绍多元线性回归的核心概念、数学原理及多种实现方式，帮助读者深入理解这一强大的预测工具。 1. 多元线性回归概述 1.1 什么是多元线性回归多元线性回归(…

阅读更多...

GOC指令

GOC指令

网络版GoC常见绘图命令说明 （V3.8） 目录 l 基本画图命令 fd, bk, lt, rt l 设置笔状态命令 c, rgb, size, up, down l 状态命令 show, hide, speed, showXY, wait, pause, cls, clsRec l 增强画图命令 o, oo, e, ee, r, rr l 坐标命令 moveTo, lineTo, g…

阅读更多...

Qt获取CPU使用率及内存占用大小

Qt获取CPU使用率及内存占用大小

Qt 获取 CPU 使用率及内存占用大小文章目录 Qt 获取 CPU 使用率及内存占用大小一、简介二、关键函数2.1 获取当前运行程序pid2.2 通过pid获取运行时间2.3 通过pid获取内存大小三、具体实现五、写在最后一、简介近期在使用软件的过程中发现一个有意思的东西。如下所示&a…

阅读更多...

期刊论文写作注意点

期刊论文写作注意点

下面给出关于期刊写作的几个关键注意点一、摘要突出创新点最重要的是论文的摘要，因为在论文送审的时候，编辑如果没有时间，最先看的就是摘要。摘要要写好。如果投的是顶刊，在摘要里面尽量不要写是在什么方法的基础上进行改进之类…

阅读更多...

Swagger 3.0 中注解详细示例

Swagger 3.0 中注解详细示例

Swagger 3.0 提供了丰富的注解来详细描述 API 的请求和响应。以下是一个使用 Operation、Parameter、RequestBody 和 ApiResponse 注解的示例，展示了如何设置请求头、请求参数、路径变量、请求体和响应体。代码中未使用 DTO 对象，而是使用 Map 来传递参数…

阅读更多...

切比雪夫不等式专题习题解析

切比雪夫不等式专题习题解析

切比雪夫不等式专题习题解析前言本文为概率论习题集专栏的切比雪夫不等式专题习题解析，针对习题篇中的10道题目提供详细解答。希望通过这些解析帮助大家深入理解切比雪夫不等式的应用和意义。一、基础概念题解析习题1解析：错误。切比雪夫不等式适用于任何具有有限方…

阅读更多...

软件测试的概念

软件测试的概念

需求的概念开发模型测试模型 1. 什么是需求在多数软件公司，会有两部分需求，⼀部分是⽤⼾需求，⼀部分是软件需求。 1.1 ⽤⼾需求⽤⼾需求：可以简单理解为甲⽅提出的需求，如果没有甲⽅，那么就是终端⽤⼾…

阅读更多...

前端面试每日三题 - Day 29

前端面试每日三题 - Day 29

这是我为准备前端/全栈开发工程师面试整理的第29天每日三题练习： ✅ 题目1：Web Components技术全景解析核心三要素 Custom Elements（自定义元素） class MyButton extends HTMLElement {constructor() {super();this.attachShado…

阅读更多...

StreamRL：弹性、可扩展、异构的RLHF架构

StreamRL：弹性、可扩展、异构的RLHF架构

StreamRL：弹性、可扩展、异构的RLHF架构大语言模型（LLMs）的强化学习（RL）训练正处于快速发展阶段，但现有架构存在诸多问题。本文介绍的StreamRL框架为解决这些难题而来，它通过独特设计提升了训…

阅读更多...

LVGL的核心：lv_timer_handler

LVGL的核心：lv_timer_handler

文章目录 🧠 一句话总结 LVGL 的运行核心：🔁 1. while(1) 主循环中的 lv_task_handler()⏱️ 2. lv_timer_handler() 定时器调度核心✅ 并发控制✅ 关键行为流程：🌀 任务执行逻辑：🧮 计算下一次…

阅读更多...

【数据机构】2. 线性表之“顺序表”

【数据机构】2. 线性表之“顺序表”

- 第 96 篇 - Date: 2025 - 05 - 09 Author: 郑龙浩/仟墨【数据结构 2】文章目录数据结构 - 2 -线性表之“顺序表”1 基本概念2 顺序表(一般为数组)① 基本介绍② 分类 (静态与动态)③ 动态顺序表的实现**test.c文件:****SeqList.h文件:****SeqList.c文件:** 数据结构 - 2 …

阅读更多...

101 alpha——8 学习

101 alpha——8 学习

alpha (-1 * rank(((sum(open, 5) * sum(returns, 5)) - delay((sum(open, 5) * sum(returns, 5)),这里我们操作符都明白，现在来看金融意义金融意义里层是这个 (sum(open, 5) * sum(returns, 5)) - delay((sum(open, 5) * sum(returns, 5)), 10 这里是两个相减…

阅读更多...

auto推导类型原则

auto推导类型原则

auto 是 C11 引入的类型自动推导关键字，它允许编译器根据表达式的类型来推导变量的确切类型。虽然使用 auto 可以让代码更简洁，但理解它的类型推导规则非常关键，尤其是在涉及指针、引用、const、模板等场景时。 ✅ 一、基本推导原则 auto x …

阅读更多...

使用智能表格做FMEDA

使用智能表格做FMEDA

一、优点使用智能表格替代excel做FMEDA具备以下优势： 减少维护成本（数据库关联，修改方便）便于持续优化（失效率分布，失效率模型可重复使用）多人同步编写（同时操作，同步…

阅读更多...

IP协议.

IP协议.

IP 协议是互联网的核心协议，工作在网络层。它给网络中的设备分配唯一的 IP 地址，把上层数据封装成数据包，然后根据目的 IP 地址通过路由器等设备进行转发，实现数据在不同网络间的传输。它还能在必要时对数据包进行分片和重组&…

阅读更多...

archlinux 详解系统层面

archlinux 详解系统层面

Arch Linux 深度解析：从设计哲学到系统架构一、Arch Linux 概述：滚动发行的极客之选 Arch Linux 是一款以滚动更新（Rolling Release） 为核心特性的 Linux 发行版，强调轻量、灵活、高度可定制，旨在让用…

阅读更多...

HTML8：媒体元素

HTML8：媒体元素

视频和音频视频元素 video 音频 audio <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>媒体元素学习</title> </head> <body> <!--音频和视频 src:资源路径 controls:控制条…

阅读更多...

SpringBoot3集成Oauth2——1（/oauth2/token方法的升级踩坑）

SpringBoot3集成Oauth2——1（/oauth2/token方法的升级踩坑）

备注：本文适用于你在SpringBoot2.7以前集成过oauth2，并且项目已经正式投入使用的情况，否则，我建议你直接学习或者找资料学习最新的oauth2集成，就不要纠结于老版本的oauth2。原因：Spring Security 5.x和Sp…

阅读更多...

最新文章