【必收藏】从零开始理解Transformer自注意力机制:Q/K/V矩阵计算与相似度原理详解

大家都知道Transfomer的自注意力核心是 “通过Q/K/V计算token间关联权重,融合全局上下文”。

那为什么计算多次Q*K的点积,就能得到得到token之间的相似度呢?WQ, Wk, Wv权重矩阵又是怎么来的?

在回答这个问题之前,再温习下Transformer自注意力机制的整体流程:

计算Attention的公式:

整体流程是这样的:

分词:

为了把文字变成模型能看懂的向量,Transformer首先会进行一个输入预处理,用分词工具譬如BPE(Byte Pair Encoding)将句子拆分为最小的语义单位TOKEN,是的,就是调用大模型按TOKEN收费的TOKEN。

Embedding:

每个TOKEN被编码为一个512维的词向量,也就是说一个向量用512个数表示,因为这些词向量是同时输入模型的,模型并不能判断出它们的先后顺序,所以,我们还需要给它们分别一个位置信息,以此来告诉模型这些词向量的先后顺序,这时我们就得到了一个形状为10*512的词向量组,这里就用x表示吧,那么模型又该如何通过x找到每个词之间的联系呢?当然是让这些词向量相互之间计算一下了。

注意力计算:

为了实现这一点,模型首先用三个权重矩阵WQ, Wk, Wv分别和每一个词向量相乘,进行线性变换得到维度不变的Q、K、V向量,其中Q(Query)为查询向量,它代表当前词想关注什么;K(Key)是键向量,它代表该词能为其它词提供什么信息或是关于什么的信息,你可以把k向量看做一个标签或索引;而V(Value)则是代表该词实际包含的信息内容,它是真正被检索和聚合的信息本身。 这里的w_q、w_k和w_v是可以通过训练过程学习的一组权重值。

当然,实际在计算机GPU中运算的时候,是通过拼接而成的大矩阵做乘法,得到的直接就是包含所有词向量的Q、K、V矩阵,并不是像我们刚刚那样,一步一步计算的。

假设第一个token得到的是Q1、K1、V1,第二个token得到的是Q2、K2、V2,依次类推。

接下来,我们让Q1和K2做点积,这表示在第一个词的视角里,第一个词和第二个词的相似度是多少。同理,依次和K3做点积,表示和第三个词的相似度,和K4做点积,表示和第四个词的相似度,…。最后再与自己做点积,表示和自己的相似度。

拿到这些相似度系数后,分别与V向量相乘。

为了让分数更合理, 我们将计算结果除以一个防止梯度爆炸的常数根号下DK就得到一组注意力分数, 然后再用Softmax函数进行归一化处理,就得到一组注意力权重。这组注意力权重代表着该词与其它每个词的关联程度,也就是相似度。

上面的看完了,再回到最初的问题:

问题1:为什么多次Q*K的点积,就能得到得到token之间的相似度呢?

是因为Tokernizer分词+Embedding+WQ, Wk, Wv打下了好的基础。

具体来说,向量语义编码的训练目标,从根源上强制让 “语义相似的文本” 对应 “方向相似的向量”。向量方向的相似性不是偶然,而是模型被刻意训练出来的 “特性”,后续的点积运算只是对这个特性的量化和利用。

向量点积能捕获真实语义的逻辑链是:

语义嵌入训练 → 语义相似的输入对应方向相近的向量 → 点积运算量化向量方向相似度 → 缩放保障高维下量化结果有效。

可以看到:不是点积运算 “创造” 了语义相似性,而是语义嵌入模型 “预设” 了语义相似性对应的向量方向特征,点积只是把这个预设的特征提取出来而已。

为什么点积可以把这个预设的特征提取出来?这是一个数学原理,如果两个高维向量越接近,它们的交乘数字就越可能更大,它们彼此之间对对方投入的「注意力」也就越大,在Attention这个地方就可以理解为两个Token越相关,语义越相似。

问题2:WQ, Wk, Wv权重矩阵如何获得?

不同的场景不同。

训练过程:WQ, Wk, Wv模型初始化时随机生成,作为模型参数。在训练中,通过反向传播和梯度下降算法,根据任务目标(如语言模型的下一个词预测)不断迭代优化,最终学习到能够有效计算注意力权重的投影方式。

推理过程:直接使用训练阶段学习并保存下来的、固定不变的WQ, Wk, Wv权重矩阵,对新的输入Token向量X进行线性变换以生成Q、K、V。

感兴趣的同学再来看看Attention机制在Transformer框架中的位置:

有感觉了没?懵懵懂懂在地方想通了没?

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01教学内容

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例:带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:

04视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!

0690+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1182600.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

终极指南:使用Vercel AI SDK快速构建现代化AI聊天应用

终极指南:使用Vercel AI SDK快速构建现代化AI聊天应用 【免费下载链接】ai Build AI-powered applications with React, Svelte, Vue, and Solid 项目地址: https://gitcode.com/GitHub_Trending/ai/ai 还在为AI应用开发的复杂性而烦恼吗?Vercel …

26年运维人想转岗网安渗透,我可以选哪些岗位发展?

前言:5 年运维的 “中年焦虑”,让我一头扎进网安 2023 年,我做运维的第 5 年,终于在又一个凌晨 3 点重启完数据库后,意识到自己走到了职业瓶颈。那时我 32 岁,每天的工作就是服务器上架、系统部署、日志排…

终极指南:用Open PS2 Loader让你的经典PS2主机焕发第二春

终极指南:用Open PS2 Loader让你的经典PS2主机焕发第二春 【免费下载链接】Open-PS2-Loader Game and app loader for Sony PlayStation 2 项目地址: https://gitcode.com/gh_mirrors/op/Open-PS2-Loader 还记得那些年在PS2上度过的美好时光吗?现…

BepInEx Unity游戏插件框架深度解析与实战指南

BepInEx Unity游戏插件框架深度解析与实战指南 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx 想要为喜爱的Unity游戏添加个性化模组,却被复杂的插件注入流程困扰&…

戴森球计划蓝图仓库实战攻略:3步打造高效工厂设计

戴森球计划蓝图仓库实战攻略:3步打造高效工厂设计 【免费下载链接】FactoryBluePrints 游戏戴森球计划的**工厂**蓝图仓库 项目地址: https://gitcode.com/GitHub_Trending/fa/FactoryBluePrints 还在为戴森球计划中的工厂效率低下而苦恼吗?Facto…

Renren-Fast-Vue终极指南:快速构建企业级后台管理系统的完整解决方案

Renren-Fast-Vue终极指南:快速构建企业级后台管理系统的完整解决方案 【免费下载链接】renren-fast-vue 项目地址: https://gitcode.com/gh_mirrors/ren/renren-fast-vue 想要快速搭建一个专业的企业级后台管理系统吗?Renren-Fast-Vue就是你的最…

Claude API实战调优:从性能瓶颈到最佳实践

Claude API实战调优:从性能瓶颈到最佳实践 【免费下载链接】courses Anthropics educational courses 项目地址: https://gitcode.com/GitHub_Trending/cours/courses 你是否曾在Claude API调用中遭遇响应过慢、输出截断或成本失控的困扰?本文将从…

为什么这款3D模型查看器能成为设计师的新宠?

为什么这款3D模型查看器能成为设计师的新宠? 【免费下载链接】open3mod Open 3D Model Viewer - A quick and powerful 3D model viewer 项目地址: https://gitcode.com/gh_mirrors/op/open3mod 还在为复杂的3D软件安装包和繁琐的操作流程头疼吗?…

百度网盘下载加速完整教程:告别龟速下载的终极解决方案

百度网盘下载加速完整教程:告别龟速下载的终极解决方案 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘的蜗牛速度而烦恼吗?每天面对几十…

GoB插件终极指南:Blender与ZBrush一键互操作完整教程

GoB插件终极指南:Blender与ZBrush一键互操作完整教程 【免费下载链接】GoB Fork of original GoB script (I just added some fixes) 项目地址: https://gitcode.com/gh_mirrors/go/GoB 还在为Blender和ZBrush之间的模型传输而烦恼吗?传统的导出导…

ROFL-Player:解锁英雄联盟回放数据的终极分析利器

ROFL-Player:解锁英雄联盟回放数据的终极分析利器 【免费下载链接】ROFL-Player (No longer supported) One stop shop utility for viewing League of Legends replays! 项目地址: https://gitcode.com/gh_mirrors/ro/ROFL-Player 还在为英雄联盟回放文件无…

UNT403A电视盒子完美刷入Armbian系统:从安卓到服务器的华丽转身

UNT403A电视盒子完美刷入Armbian系统:从安卓到服务器的华丽转身 【免费下载链接】amlogic-s9xxx-armbian amlogic-s9xxx-armbian: 该项目提供了为Amlogic、Rockchip和Allwinner盒子构建的Armbian系统镜像,支持多种设备,允许用户将安卓TV系统更…

2026年浑南评价高的隐形车衣品牌推荐榜单,汽车贴膜/太阳膜/车衣改色/隐形车衣/贴车衣/贴太阳膜,隐形车衣品牌口碑推荐 - 品牌推荐师

随着汽车消费升级与个性化需求激增,隐形车衣作为车辆外观防护与颜值提升的核心产品,市场渗透率持续攀升。据行业数据显示,2025年国内隐形车衣市场规模已突破200亿元,年均复合增长率超15%,其中浑南地区因汽车保有量…

Thorium浏览器:为现代用户打造的高速隐私保护利器

Thorium浏览器:为现代用户打造的高速隐私保护利器 【免费下载链接】thorium Chromium fork named after radioactive element No. 90. Windows and MacOS/Raspi/Android/Special builds are in different repositories, links are towards the top of the README.md…

2026年正规的单相电表,导轨式电表,多用户电表厂家推荐及选购指南 - 品牌鉴赏师

引言在 2026 年的电力计量与管理领域,单相电表、导轨式电表、多用户电表等产品的市场需求持续增长,其质量与性能直接关系到电力系统的稳定运行和用户的用电体验。为了给广大消费者提供一份客观、公正、专业的电表厂家…

RAG技术入门:5分钟带你搞懂检索增强生成

你是否曾对ChatGPT、文心一言等大模型在某些问题上“一本正经地胡说八道”感到困惑?这种“幻觉”现象,是当前大语言模型面临的核心挑战之一。与此同时,你是否也好奇,那些能精准回答你公司内部文档、最新资讯的AI助手是如何做到的&…

【Hugging Face】 预训练模型-数据处理-模型训练-部署落地

文章目录目录一、Hugging Face 核心定位与背景二、Hugging Face 核心技术生态与核心组件1. Model Hub:全球最大的预训练模型仓库(核心入口)2. Transformers 库:预训练模型的统一调用与微调工具(核心工具库)…

2026年1月成都钢模板/梯笼/桥梁模板/圆柱模板/盖梁/租赁公司口碑选型与实操指南 - 2026年企业推荐榜

本文针对2026年上半年成都地区建筑企业选择梯笼租赁平台的痛点,提供一份基于口碑、技术、服务等多维度的选型指南。通过评估方法论、厂商矩阵分析,重点剖析四川贤交建筑设备租赁有限公司的综合优势,并给出不同企业规…

现代终端效率革命:5大核心策略彻底重构你的工作流

现代终端效率革命:5大核心策略彻底重构你的工作流 【免费下载链接】hyper 项目地址: https://gitcode.com/gh_mirrors/hyp/hyper 在当今快节奏的技术环境中,终端效率已经成为开发者生产力的关键瓶颈。传统的命令行工具往往局限于基础功能&#x…

Univer表格终极指南:解决企业办公中的5大痛点

Univer表格终极指南:解决企业办公中的5大痛点 【免费下载链接】univer Univer is a set of enterprise document and data collaboration solutions, including spreadsheets, documents, and slides. The highly extensible design allows developers to customize…