大模型位置编码演进史:从RoPE到Interleaved MRoPE,小白也能看懂的多模态基础

本文系统解析了多模态大模型中位置编码的演进历程:从1D RoPE(文本序列)到2D-RoPE(图像)再到3D-RoPE(视频),最终发展为Qwen3-VL的Interleaved MRoPE。详细解释了各方法的数学原理、优缺点及代码实现,强调Interleaved MRoPE通过在频率维度上交错分配轴信息,解决了传统方法频谱不均衡、长视频位置分辨率下降等问题,使模型能更好地理解不同模态中的时空结构。


在多模态大模型中,**位置编码(Positional Encoding)并不是一个“实现细节”,而是决定模型是否真正理解结构(Structure)**的基础能力。

从:

  • 文本的一维序列(1D)
  • 图像的二维空间(2D)
  • 视频的三维时空(3D)

位置建模的复杂度呈指数级上升。

Qwen3-VL 的位置编码设计,并非一次性“发明”,而是一条非常清晰、工程理性的演进路径:

RoPE(1D) → 2D-RoPE → 3D-RoPE → Interleaved MRoPE

本文将系统解析这一演进过程,并解释为什么:

Interleaved MRoPE 是 Qwen3-VL 的“基础设施级”创新,而不是简单 Trick。

一、RoPE(1D)回顾:为序列而生的旋转位置编码

1.1 RoPE 要解决什么问题?

传统 Transformer 使用绝对位置编码

存在两个根本缺陷:

  1. 长度外推能力差(超过训练长度性能急剧下降)
  2. 注意力中无法显式建模相对位置

RoPE(Rotary Position Embedding)的目标是:

让注意力机制天然感知“相对位置”,而不是死记绝对索引。

1.2 RoPE 的核心数学定义(逐项解释)

对于序列中第 § 个 token,其 Query / Key 向量为:

RoPE 将 embedding按偶奇维度成对视为二维向量,并进行旋转

其中频率项定义为:

直觉解释:

  • 每两维构成一个二维平面
  • 不同维度使用不同频率(低频 → 长距离,高频 → 细粒度)
  • 位置 § 被编码为旋转角度

👉位置不再是“向量相加”,而是“相位变化”

1.3 为什么 RoPE 天然支持相对位置?

在注意力中真正使用的是内积:

该内积只与 ((p - q)) 有关,而与绝对位置无关。

因此,模型学到的是:

“你在我前面多远”,而不是“你是第几个 token”。

1.4 RoPE(1D)示意图

1.5 代码示例(1D RoPE)

import torchdef rope_1d(x, pos): dim = x.shape[-1] half = dim // 2 freq = torch.exp( -torch.arange(0, half, 2, device=x.device) * (torch.log(torch.tensor(10000.0)) / half) ) angle = pos[:, None] * freq[None, :] sin, cos = angle.sin(), angle.cos() x_even = x[:, 0::2] x_odd = x[:, 1::2] x_rot = torch.stack([ x_even * cos - x_odd * sin, x_even * sin + x_odd * cos ], dim=-1).flatten(-2) return x_rot

二、2D-RoPE:从序列到空间(图像)

2.1 为什么 1D-RoPE 不适合图像?

图像 patch 的位置不是一个标量,而是二维坐标:

若强行 flatten 为一维序列:

  • 空间邻近关系被破坏
  • 不同分辨率 / 长宽比泛化能力差

2.2 2D-RoPE 的核心思想

在 embedding 维度上显式区分高度与宽度。

2.3 数学定义

对于图像 patch token:

将 embedding 拆为两半:

分别应用 RoPE:

2.4 空间直觉示意图

2.5 代码示例(2D RoPE)

def rope_2d(x, h, w): d = x.shape[-1] x_h, x_w = x[..., :d//2], x[..., d//2:] x_h = rope_1d(x_h, h) x_w = rope_1d(x_w, w) return torch.cat([x_h, x_w], dim=-1)

三、3D-RoPE:视频中的时间 × 空间

3.1 视频多了什么?

视频 patch 的位置是三元组:

若只使用 2D-RoPE:

  • 同一空间位置的不同时间帧不可区分
  • 动作与事件演化难以建模

3.2 3D-RoPE 数学定义

3.3 3D 时空建模示意

3.4 代码示例(3D RoPE)

def rope_3d(x, t, h, w): d = x.shape[-1] dt = d // 3 x_t = rope_1d(x[..., :dt], t) x_h = rope_1d(x[..., dt:2*dt], h) x_w = rope_1d(x[..., 2*dt:], w) return torch.cat([x_t, x_h, x_w], dim=-1)

四、Interleaved MRoPE:Qwen3-VL 的关键突破

4.1 传统 2D / 3D-RoPE 的根本缺陷

embedding 被“整块切分”,导致频谱分配不均衡

结果:

  • 时间轴高频不足
  • 长视频位置分辨率下降
  • 注意力退化为模糊对齐

4.2 MRoPE 的核心思想

不按“轴”切 embedding,而是在“频率维度”上交错分配轴信息。

4.3 Interleaved 直觉示意

每个轴同时拥有:

  • 低频(长距离)
  • 高频(精细位置)

4.4 数学形式(概念化)

对于第 (k) 个二维子空间:

其中:

旋转角度由对应轴的位置决定。

4.5 代码示意(Interleaved MRoPE)

def interleaved_mrope(x, pos_t, pos_h, pos_w): axes = [pos_t, pos_h, pos_w] out = x.clone() for i in range(0, x.shape[-1], 2): axis = (i // 2) % 3 out[..., i:i+2] = rope_1d( x[..., i:i+2], axes[axis] ) return out

五、方法对比总结

方法空间时间频谱均衡长视频
RoPE (1D)
2D-RoPE
3D-RoPE⚠️
Interleaved MRoPE

如何系统的学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)





第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1190744.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第6天敏捷冲刺日志

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/Class12Grade23ComputerScience/这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/Class12Grade23ComputerScience/homework/13474昨日完成:接龙流…

【目标跟踪】Kalman过滤器,EKF,Gaussian Filter,PhD滤波器和粒子过滤器的工作原理附matlab代码

✅作者简介:热爱数据处理、建模、算法设计的Matlab仿真开发者。🍎更多Matlab代码及仿真咨询内容点击 🔗:Matlab科研工作室🍊个人信条:格物致知,完整Matlab代码获取及仿真咨询内容私信。👇 关注我…

详细介绍:C++中的thread

详细介绍:C++中的thread2026-01-20 20:51 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; fo…

第7天敏捷冲刺日志

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/Class12Grade23ComputerScience/这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/Class12Grade23ComputerScience/homework/13474昨日完成:bug修…

第4天敏捷冲刺日志

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/Class12Grade23ComputerScience/这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/Class12Grade23ComputerScience/homework/13474昨日完成:房间创…

paperxie 期刊论文:从选题到见刊,智能工具让学术发表不再是 “玄学”

paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/aippt https://www.paperxie.cn/ai/journalArticleshttps://www.paperxie.cn/ai/journalArticleshttps://www.paperxie.cn/ai/journalArticles 对于科研人来说,一篇期刊论文的发表,…

第3天敏捷冲刺日志

昨日完成: 用户登录验证逻辑 -词库表结构设计 今日计划: 实现“房间创建”与“加入房间”功能(含唯一房间ID生成) 联调数据库插入与查重逻辑 问题挑战: 房间ID防重复机制设计略复杂,采用“时间戳+随机字符串”生…

【性能测试】13_JMeter _JMeter分布式

文章目录一、分布式1.1 为什么使用分布式1.2 什么是分布式1.3 分布式原理二、分布式配置2.1 代理机(Agent)配置2.2 控制机(Controller)配置三、实施案例3.1 搭建目录结构3.2 执行机和控制机配置3.3 执行机和控制机启动四、注意事项…

paperxie 毕业论文:本科通关神器,3000 字原创轻松交付[特殊字符]

paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/aippt https://www.paperxie.cn/ai/dissertationhttps://www.paperxie.cn/ai/dissertationhttps://www.paperxie.cn/ai/dissertation 还在对着空白文档发愁?本科毕业论文的 DDL 步步紧逼&#…

第5天敏捷冲刺日志

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/Class12Grade23ComputerScience/这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/Class12Grade23ComputerScience/homework/13474昨日完成:AI联想…

经典卷积神经网络简单介绍

AlexNet:它由五个卷积层,三个最大池化层,两个全连接隐藏层和一个全连接输出层组成,采用ReLu作为激活函数,在训练过程中引入dropout增强模型泛化能力,在2012年ImageNet图像大赛上大放异彩,历史意义极其重要,它的…

Java SaaS Niucloud云编译全端开发框架:革新企业级应用开发模式

摘要随着企业数字化转型的加速,构建高效、灵活且可扩展的软件系统成为关键需求。Java SaaS Niucloud云编译全端开发框架应运而生,它是一款集插件化架构、云安装、云编译与云发布功能于一体的快速开发SaaS多用户系统后台管理框架。本文深入探讨了Niucloud…

实验 2 Scala 编程初级实践

// 在 spark-shell 提示符下直接粘贴即可 import scala.io.StdInval q = StdIn.readLine("请输入 q: ").trim.toDoublevar n = 1 var sn = 0.0 var term = 0.0while (sn < q) {term = (n + 1).toDoubl…

【收藏必备】Transformer架构深度解析:一文掌握大模型核心原理

Transformer通过自注意力(QKV)和多头注意力机制实现高效长距离依赖捕捉&#xff0c;结合残差连接和层归一化保障训练稳定性&#xff0c;彻底解决传统RNN/CNN的顺序处理限制&#xff0c;实现并行计算&#xff0c;成为大模型的核心架构。本文系统解析其组件和工作原理&#xff0c…

解锁AI生产力新境界:Coze平台200+工作流合集深度解析与实战指南

摘要&#xff1a;本文开源分享了一套覆盖200实用场景的Coze工作流合集&#xff0c;从项目背景、技术价值到详细操作指南&#xff0c;系统性解析如何通过标准化工作流实现AI任务自动化。通过Git克隆或ZIP下载两种方式&#xff0c;读者可快速获取并导入工作流至Coze平台&#xff…

paperxie 毕业论文写作工具:本科生通关毕业季的秘密武器

paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/aippt https://www.paperxie.cn/ai/dissertationhttps://www.paperxie.cn/ai/dissertationhttps://www.paperxie.cn/ai/dissertation 毕业季的钟声已经敲响&#xff0c;当你还在为本科毕业论文焦头烂额时&…

人群仿真软件:Legion_(5).Legion建模工具使用

Legion建模工具使用 1. 建模工具概述 Legion建模工具是Legion软件的核心组成部分之一&#xff0c;用于创建和编辑人群仿真模型。该工具提供了丰富的功能和工具集&#xff0c;使得用户能够高效地构建复杂的仿真环境。建模工具的主要功能包括&#xff1a;几何建模&#xff1a;创建…

救命神器8个AI论文网站,继续教育学生轻松搞定毕业论文!

救命神器8个AI论文网站&#xff0c;继续教育学生轻松搞定毕业论文&#xff01; AI 工具如何助力论文写作&#xff1f; 在当今快节奏的学习环境中&#xff0c;继续教育学生面临着越来越大的学术压力&#xff0c;尤其是毕业论文的撰写。传统的写作方式不仅耗时耗力&#xff0c;还…

Python语法进阶笔记(五)

一、可迭代对象可迭代对象Iterable遍历&#xff08;迭代&#xff09;&#xff1a;依次从对象中把一个个元素取出来的过程数据类型&#xff1a;str、list、tuple、dict、set等可迭代对象的条件对象实现了_ _ iter _ _ () 方法_ _iter _ _() 返回了迭代器对象for 循环工作原理先通…