详细介绍:OneRec - V2 lazy decoder为什么效率高

news/2026/1/26 17:54:23/文章来源:https://www.cnblogs.com/gccbuaa/p/19534927

目录

背景:

模型结构:

Context Processor

Lazy Decoder Block

Tokenizer:

Block Structure :

Lazy Cross-Attention: KV-Sharing

Grouped Query Attention, GQA

实验部分:

总结:

(1)计算效率飞跃

(2)可扩展性突破

问题:


背景:

  • Encoder-Decoder 架构的适配性
    • Encoder 专门负责编码历史物品序列(上下文),处理 “理解用户偏好” 的任务;
    • Decoder 专门负责基于上下文生成最新物品(预测目标),处理 “生成推荐结果” 的任务;
    • 两者通过交叉注意力机制联动,完美匹配 “历史上下文编码→最新物品生成” 的分工需求。

encoder的编码计算是 “辅助计算”,但在传统架构中占用了大量资源(如 OneRec-V1 中占 97.66% FLOPs)。在参数量相同的情况下,编码器 - 解码器(Encoder-Decoder)架构相比经典纯解码器(Decoder-Only)架构节省近半数计算量

  • OneRec-V1 的Encoder-Decoder 架构虽适配该数据组织方式,但带来了计算资源分配低效(Encoder 占 97.66% FLOPs)的问题;
  • OneRec-V2 的核心挑战是:如何在保持 “历史上下文编码 + 最新物品生成” 分工的前提下,移除独立 Encoder,实现更高效的架构;
  • 最终 OneRec-V2 通过 “惰性上下文处理 + 轻量化交叉注意力” 实现了这一目标:将历史物品的编码逻辑融入 Decoder,既保留了 “上下文 - 目标分离” 的适配性,又解决了计算低效疑问。

模型结构:

Context Processor

为了有效融合多模态用户行为,能够与下游解码器模块实现无缝集成。

具体而言,用户画像(user profile)、行为记录(behavior)等异构输入被拼接为一个统一序列(即上下文 context)。上下文序列中的每个元素均被映射至相同维度,满足:

其中,d_{\text{head}}表示注意力头维度,G_{\text{kv}}为键值头组数,S_{\text{kv}}为键值拆分系数,L_{\text{kv}}为键值层数。

context会被切分为S_{\text{kv}}*L_{\text{kv}}份,每一份的维度为d_{\text{head}}*G_{\text{kv}}

对于每一层

计算归一化后的key-value pairs:

最终输出为

总结:在encoder-decoder的基础上,将context信息进行拆解,

拆解到L层中的key,value值,省去encoder部分;

因而是没有context之间的attention交互的,而是只计算了context与候选item之间的cross attention还有候选item之间的causal self-attention;

Lazy Decoder Block

Tokenizer:

对于每个目标物品,我们采用与 OneRec-V1(Zhou 等人,2025)一致的语义分词器,生成 3 个语义标识(semantic IDs,SID),以捕捉物品的多维度特征。训练阶段,我们使用前 2 个语义标识,并在序列头部添加一个序列起始标识(beginning-of-sequence, BOS),构成输入序列:

Block Structure :

其中,\text{RMSNorm}(根均方层归一化)用于保障训练稳定性。

为在保持计算效率的同时提升模型容量,我们采用混合架构:将深层的稠密前馈网络替换为混合专家(Mixture-of-Experts, MoE)模块。借鉴 DeepSeek-V3(Liu 等人,2024)的设计,我们引入无辅助损失的负载均衡策略,确保专家网络的高效利用。

Lazy Cross-Attention: KV-Sharing

  • 降低计算冗余:Context Processor 无需生成与解码器层数相同的 KV 对(如 12 组),仅需生成L_{\text{kv}}组(如 6 组),内存减少 50%。

Grouped Query Attention, GQA

查询投影(query projection)仍保持H_q = d_{\text{model}} / d_{\text{head}}个注意力头,而键值对仅利用G_{\text{kv}}个键值头组(key-value head groups),且通常满足G_{\text{kv}} < H_q。该设计大幅降低了上下文表征的内存占用,同时减少了注意力计算过程中的内存访问开销,(为什么)使模型能够高效扩展至更长的上下文序列和更大的批量大小(batch sizes)。

输出层(Output Layer)最后一个解码器模块的最终隐藏表征,经位置特异性 RMSNorm(position-specific RMSNorm)和全连接层(Linear layer)处理后,生成每个语义标识(semantic ID)的预测结果。训练阶段,模型借助最大化目标物品的语义标识序列 \([s_1, s_2, s_3]\) 的对数似然(log-likelihood)进行优化。

OneRec-V2 的 Lazy Cross-Attention 通过 “跨层 KV 复用、键值绑定、GQA” 三大创新,完美解决了生成式推荐模型的 “内存瓶颈” 和 “计算瓶颈”:

  1. 内存层面:KV 缓存占用减少 80% 以上,支持更长上下文和更大批量;
  2. 计算层面:注意力计算量减少 94%,推理延迟降至 30ms 内;
  3. 性能层面:通过位置特异性归一化、键值绑定的性能补偿,确保推荐精度不下降。

实验部分:

fewer FLOPs and lower activation memory, our lazy decoder-only architecture achieves comparable losses compared to traditional approaches.

FLOPs 量化了模型完成一次训练迭代(或一次推理)所需的浮点运算总量(如加法、乘法),其本质是 “模型的计算复杂度”——FLOPs 越高,意味着需要越多的计算资源(GPU 算力、电力)来完成任务

低 FLOPs 意味着用更少资源完成相同任务,或在相同资源下支撑更大规模、更高并发的业务

MOE变体:总参数量为 4B 的 MoE 变体(激活参数量 0.5B)收敛损失达 3.22,其性能优于 2B 稠密模型,且计算需求与 0.5B 稠密基准模型相当。该部署相比 0.5B 稠密模型的损失降低了 0.11,充分验证了稀疏架构在推荐任务中的有效性。

分组查询注意力(GQA)通过在多个查询头(query heads)间共享键值头(key-value heads)建立优化。在我们的惰性解码器架构中,该优化减少了交叉注意力操作中的激活内存(activation memory)占用与内存访问瓶颈,从而在对模型性能影响极小的前提下,显著提升了训练吞吐量(training throughput)。我们在一个含 14 个注意力头的 1B 参数稠密惰性解码器模型上,探究了不同键值头组数(\(G_{\text{kv}} \in \{1,2,7\}\))对模型的影响。

总结:

(1)计算效率飞跃
  • 总计算量减少 94%,训练资源消耗降低 90%:利用剥离冗余辅助计算,目标解码的计算占比从 < 3% 提升至 90% 以上,资源利用率大幅提升;
  • 推理延迟降低:上下文编码的轻量化与惰性更新,使实时推理 latency 从 200ms + 降至 30ms 内,满足工业级推荐的低延迟要求。
(2)可扩展性突破
  • 支持 8B 参数规模:有效计算占比的提升,让相同计算预算下可分配给目标解码的参数量大幅增加,模型表征能力显著增强;
  • 遵循缩放定律:随着参数量扩大,损失呈平滑下降趋势(无性能饱和),为后续扩展至 10B + 参数奠定基础。

问题:

1. 为什么encoder-decoer但仍存在 97% 资源浪费?

2. 为什么GQA可以降低内存访问开销?

减少了参数量的,对吧?比如encoder self-attention的k,v值与FFN。就是3. 传统编码器是基于attetnion来建模context的相关信息的,但是one-vec v2没有对context进行attention计算,而是直接作为解码器的k,v值。所以相比encoder-decoer在相同的参数配置下,应该

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1220147.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

钢铁厂冷却循环水可视化监控系统方案

钢铁生产过程中&#xff0c;高炉、转炉、轧机等关键设备持续产生大量热量。冷却循环水系统通过换热降温&#xff0c;维持设备在安全温度范围内运行&#xff0c;对于保障生产安全、设备稳定与人员安全至关重要。随着钢铁行业数字化转型的深入推进&#xff0c;实现冷却水系统的实…

2026 年知名成都TD板定制厂家深度解析:产品、售后与经典案例全指南

2026 年知名成都TD板定制厂家深度解析:产品、售后与经典案例全指南随着2026年绿色建材政策落地与装配式建筑的加速普及,TD板作为兼具轻质、高强、高效施工特性的新型建材,已成为工业厂房、高端建筑、夹层改造等场景…

2026年评价高的四川树脂瓦PVC树脂瓦仿古树脂瓦厂家用户好评厂家推荐

2026年评价高的四川树脂瓦/PVC树脂瓦/仿古树脂瓦厂家用户好评厂家推荐在“双碳”目标深化落实与绿色建筑政策红利的双重驱动下,合成树脂瓦凭借轻质高强、耐候环保、安装便捷等核心优势,成为城乡改造、市政建设、文旅…

LEEHON-TFT-LCD液晶屏与OLED有什么区别?

在现代显示技术体系中&#xff0c;TFT-LCD&#xff08;薄膜晶体管液晶显示&#xff09; 与 OLED&#xff08;有机发光二极管显示&#xff09; 是两种主流方案。它们广泛应用于工业显示、智能终端、电视、汽车电子、医疗影像、可穿戴设备等各类场景。二者常被并列讨论&#xff0…

35岁程序员,26年后面的路子咋走?

不要侥幸&#xff0c;35 岁以上的程序员不好找工作&#xff0c; 这是一个既定事实 首先无论是什么渠道&#xff0c; 对于普通人来说 35 的程序员&#xff0c; 不好就业&#xff0c; 就是一个既定事实。 甚至都不一定与自己的工作经历、学历 有多大的关系。 甚至我知道很多 35…

A-3

23/8 9 - 12 24 25年, 3 4 - 9 , 4,5,6,7,8 5个月武汉, 无人机公司, 破医疗公司找工作, 本身就是被动

2026年废纸撕碎机厂家权威推荐:郑州东宏机械设备聚焦行业发展

在环保政策持续收紧与循环经济加速发展的双重驱动下,废纸回收行业正经历技术升级与产业重构的关键阶段。作为固废处理设备领域的核心参与者,废纸撕碎机的性能与可靠性直接影响着再生资源利用效率。 一、行业格局:技…

2026年轮胎撕碎机厂家权威推荐:为何郑州东宏机械成为行业首选?

在“无废城市”建设加速推进、资源循环利用政策持续深化的背景下,废旧轮胎等高分子固废的高效处理已成为环保产业链中的关键环节。作为实现橡胶资源再生利用的核心装备,轮胎撕碎机的技术先进性、运行稳定性与系统适配…

2026年烟道厂家权威推荐榜:防火胶测试、防火胶选购、阻燃防火胶、顶楼烟道、预制烟道、饭店烟道、高层烟道、专用烟道选择指南

2026年建筑烟道优质品牌推荐榜行业背景与筛选依据据《2026-2030中国建筑通风排烟系统行业发展白皮书》数据,2026年国内烟道市场规模突破120亿元,年复合增长率达8.5%。伴随城市化进程加速,住宅、商业综合体等建筑对烟…

运维工程师和后端工程师哪个好?

运维工程师和后端工程师都是IT行业中非常重要的职位&#xff0c;虽然它们是两种角色&#xff0c;工作职责也有所不同&#xff0c;但其作用都是不可小觑的&#xff0c;因此很多人就会纠结&#xff1a;运维工程师和后端工程师哪个好?具体请看下文。运维工程师和后端工程师各有优…

当硬件成为载体:制造端如何支撑持续的OTA与功能进化?

在合肥的智能工厂中&#xff0c;一条生产线同时装配着算力相差六倍的车载控制器。质检员面前屏幕上跳动的&#xff0c;不仅是硬件合规参数&#xff0c;更是每辆车为未来十年软件迭代预留的“潜力值”。制造不再是交付的终点&#xff0c;而是车辆“数字生命”的序章。 “软件定义…

在Linux中如何移动文件或文件夹?

mv命令是一个非常常用的命令&#xff0c;它可以用来移动文件和文件夹。无论是在日常生活中还是在系统管理等领域&#xff0c;我们经常需要对文件进行移动&#xff0c;而mv命令则是操作的首选。接下来这篇文章为大家介绍一下Linux文件系统mv命令使用详解!mv命令是一个基础但非常…

2026年金属撕碎机厂家综合实力榜:郑州东宏机械以核心技术引领行业

在固废处理资源化利用行业快速发展的2026年,选择合适的金属撕碎机厂家成为众多企业的关键决策。本文将结合行业数据与技术发展趋势,为您解析金属撕碎机领域的实力厂家,其中位于河南郑州的东宏机械设备有限公司凭借其…

websocket接海康视频监控

index.html <script src="/js/h5player.min.js"></script>h5Player.vue <template><div class="player-container" :id="props.idName"></div> </tem…

从沟通到落地:2026年选择展厅装修公司的完整流程,展台搭建/展览设计/展览搭建/会展服务,展厅装修公司联系方式

在全球化竞争加剧的当下,展厅作为企业品牌展示的核心场景,其装修质量直接影响客户体验、品牌信任度及市场转化率。据中国会展经济研究会2025年数据显示,企业展厅装修投入每增加10%,客户停留时长平均提升23%,意向合…

2026年市面上热门的空气处理单元工厂排行,换热器/蒸汽暖风机/柜式空调机组/工业暖风机,空气处理单元供应商哪家强

近年来,随着工业与商业领域对空气处理需求的持续攀升,尤其是高大空间场所对采暖、通风与空气调节设备的需求激增,空气处理单元行业迎来了高速发展期。然而,市场鱼龙混杂,企业技术实力、产品适配性及服务能力参差不…

2026年1月双轴撕碎机厂家权威推荐:聚焦环保装备智造新力量

在拆解车间内,伴随着低沉的轰鸣,一台双轴撕碎机正在将大块工业废料“吞入”,经过精密剪切与撕裂,吐出均匀规整的再生资源碎片。郑州东宏机械设备有限公司的生产车间内,技术工人们正在对即将出厂的一批DH系列双轴撕…

2026年双轴撕碎机厂家新分析报告:东宏机械聚焦环保装备智造新力量

在拆解车间内,伴随着低沉的轰鸣,一台双轴撕碎机正在将大块工业废料“吞入”,经过精密剪切与撕裂,吐出均匀规整的再生资源碎片。郑州东宏机械设备有限公司的生产车间内,技术工人们正在对即将出厂的一批DH系列双轴撕…

2026年烟道系统优质产品推荐榜

2026年烟道系统优质产品推荐榜据《2026年中国建筑通风排烟系统行业发展白皮书》数据显示,2026年国内建筑通风排烟系统市场规模突破380亿元,年复合增长率达12.7%。随着住宅品质升级、商业综合体业态多元化,市场对烟道…

2026最新益气健脾口服液产品top5推荐!优质企业及品牌权威榜单,贫血/气虚/女性/产后/儿童/脾虚人群专属调理方案

引言 现代快节奏生活下,气血不足、脾胃虚弱已成为影响国民健康的常见问题,尤其在女性、产后妈妈、儿童及中老年群体中发病率居高不下。据中国营养学会2025年度调查数据显示,我国缺铁性贫血人群占比达23.5%,其中女性…