Transformer自注意力机制详解:为什么Q*K能计算token相似度?权重矩阵如何生成?

文章解析了Transformer自注意力机制的核心原理,解释了Q*K点积计算能捕捉token相似度的原因——语义相似的文本对应方向相近的向量,点积只是量化了这种预设特征。同时详细说明了W_Q、W_K、W_V权重矩阵在训练中通过反向传播和梯度下降学习得到,用于将输入向量转换为查询、键和值向量,实现token间关联权重的计算。


大家都知道Transfomer的自注意力核心是 “通过Q/K/V计算token间关联权重,融合全局上下文”。

那为什么计算多次Q*K的点积,就能得到得到token之间的相似度呢?WQ, Wk, Wv权重矩阵又是怎么来的?

在回答这个问题之前,再温习下Transformer自注意力机制的整体流程:

计算Attention的公式:

整体流程是这样的:

分词:

为了把文字变成模型能看懂的向量,Transformer首先会进行一个输入预处理,用分词工具譬如BPE(Byte Pair Encoding)将句子拆分为最小的语义单位TOKEN,是的,就是调用大模型按TOKEN收费的TOKEN。

Embedding:

每个TOKEN被编码为一个512维的词向量,也就是说一个向量用512个数表示,因为这些词向量是同时输入模型的,模型并不能判断出它们的先后顺序,所以,我们还需要给它们分别一个位置信息,以此来告诉模型这些词向量的先后顺序,这时我们就得到了一个形状为10*512的词向量组,这里就用x表示吧,那么模型又该如何通过x找到每个词之间的联系呢?当然是让这些词向量相互之间计算一下了。

注意力计算:

为了实现这一点,模型首先用三个权重矩阵WQ, Wk, Wv分别和每一个词向量相乘,进行线性变换得到维度不变的Q、K、V向量,其中Q(Query)为查询向量,它代表当前词想关注什么;K(Key)是键向量,它代表该词能为其它词提供什么信息或是关于什么的信息,你可以把k向量看做一个标签或索引;而V(Value)则是代表该词实际包含的信息内容,它是真正被检索和聚合的信息本身。 这里的w_q、w_k和w_v是可以通过训练过程学习的一组权重值。

当然,实际在计算机GPU中运算的时候,是通过拼接而成的大矩阵做乘法,得到的直接就是包含所有词向量的Q、K、V矩阵,并不是像我们刚刚那样,一步一步计算的。

假设第一个token得到的是Q1、K1、V1,第二个token得到的是Q2、K2、V2,依次类推。

接下来,我们让Q1和K2做点积,这表示在第一个词的视角里,第一个词和第二个词的相似度是多少。同理,依次和K3做点积,表示和第三个词的相似度,和K4做点积,表示和第四个词的相似度,…。最后再与自己做点积,表示和自己的相似度。

拿到这些相似度系数后,分别与V向量相乘。

为了让分数更合理, 我们将计算结果除以一个防止梯度爆炸的常数根号下DK就得到一组注意力分数, 然后再用Softmax函数进行归一化处理,就得到一组注意力权重。这组注意力权重代表着该词与其它每个词的关联程度,也就是相似度。

上面的看完了,再回到最初的问题:

问题1:为什么多次Q*K的点积,就能得到得到token之间的相似度呢?

是因为Tokernizer分词+Embedding+WQ, Wk, Wv打下了好的基础。

具体来说,向量语义编码的训练目标,从根源上强制让 “语义相似的文本” 对应 “方向相似的向量”。向量方向的相似性不是偶然,而是模型被刻意训练出来的 “特性”,后续的点积运算只是对这个特性的量化和利用。

向量点积能捕获真实语义的逻辑链是:

语义嵌入训练 → 语义相似的输入对应方向相近的向量 → 点积运算量化向量方向相似度 → 缩放保障高维下量化结果有效。

可以看到:不是点积运算 “创造” 了语义相似性,而是语义嵌入模型 “预设” 了语义相似性对应的向量方向特征,点积只是把这个预设的特征提取出来而已。

为什么点积可以把这个预设的特征提取出来?这是一个数学原理,如果两个高维向量越接近,它们的交乘数字就越可能更大,它们彼此之间对对方投入的「注意力」也就越大,在Attention这个地方就可以理解为两个Token越相关,语义越相似。

问题2:WQ, Wk, Wv权重矩阵如何获得?

不同的场景不同。

训练过程:WQ, Wk, Wv模型初始化时随机生成,作为模型参数。在训练中,通过反向传播和梯度下降算法,根据任务目标(如语言模型的下一个词预测)不断迭代优化,最终学习到能够有效计算注意力权重的投影方式。

推理过程:直接使用训练阶段学习并保存下来的、固定不变的WQ, Wk, Wv权重矩阵,对新的输入Token向量X进行线性变换以生成Q、K、V。

感兴趣的同学再来看看Attention机制在Transformer框架中的位置:


最后

选择AI大模型就是选择未来!最近两年,大家都可以看到AI的发展有多快,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?

与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,人才需求急为紧迫!

人工智能时代最缺的是什么?就是能动手解决问题还会动脑创新的技术牛人!智泊AI为了让学员毕业后快速成为抢手的AI人才,直接把课程升级到了V6.0版本‌。

这个课程就像搭积木一样,既有机器学习、深度学习这些基本功教学,又教大家玩转大模型开发、处理图片语音等多种数据的新潮技能,把AI技术从基础到前沿全部都包圆了!

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

课程还教大家怎么和AI搭档一起工作,就像程序员带着智能助手写代码、优化方案,效率直接翻倍‌!

这么练出来的学员确实吃香,83%的应届生都进了大厂搞研发,平均工资比同行高出四成多‌。

智泊AI还特别注重培养"人无我有"的能力,比如需求分析、创新设计这些AI暂时替代不了的核心竞争力,让学员在AI时代站稳脚跟‌。

课程优势一:人才库优秀学员参与真实商业项目实训

课程优势二:与大厂深入合作,共建大模型课程

课程优势三:海外高校学历提升

课程优势四:热门岗位全覆盖,匹配企业岗位需求

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

·应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

·零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

·业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

重磅消息

人工智能V6.0升级两大班型:AI大模型全栈班AI大模型算法班,为学生提供更多选择。

由于文章篇幅有限,在这里我就不一一向大家展示了,学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。

【最新最全版】AI大模型全套学习籽料(可无偿送):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!

获取方式:有需要的小伙伴,可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

来智泊AI,高起点就业

培养企业刚需人才

扫码咨询 抢免费试学

⬇⬇⬇

AI大模型学习之路,道阻且长,但只要你坚持下去,就一定会有收获。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1172508.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微博相册一键批量下载:3步搞定高清图片收藏

微博相册一键批量下载:3步搞定高清图片收藏 【免费下载链接】Sina-Weibo-Album-Downloader Multithreading download all HD photos / pictures from someones Sina Weibo album. 项目地址: https://gitcode.com/gh_mirrors/si/Sina-Weibo-Album-Downloader …

Switch破解系统大气层优化指南:10分钟掌握Atmosphere核心配置

Switch破解系统大气层优化指南:10分钟掌握Atmosphere核心配置 【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版 项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable 还在为Switch自制系统的复杂配置感到困惑?想要快速搭建…

Open Interpreter从零开始:搭建个人AI编程助手完整指南

Open Interpreter从零开始:搭建个人AI编程助手完整指南 1. 引言 随着大语言模型(LLM)在代码生成领域的持续突破,开发者对“自然语言驱动编程”的需求日益增长。然而,大多数AI编程工具依赖云端API,存在数据…

RimWorld性能革命:Performance Fish模组全面调优手册

RimWorld性能革命:Performance Fish模组全面调优手册 【免费下载链接】Performance-Fish Performance Mod for RimWorld 项目地址: https://gitcode.com/gh_mirrors/pe/Performance-Fish 大型殖民地卡顿频发?内存占用居高不下?Perform…

开源大模型落地趋势一文详解:Qwen3-4B多场景应用指南

开源大模型落地趋势一文详解:Qwen3-4B多场景应用指南 1. 技术背景与选型价值 近年来,随着大语言模型在自然语言理解、代码生成和多模态任务中的广泛应用,开源社区对高效、轻量且具备强推理能力的模型需求日益增长。Qwen3-4B-Instruct-2507 …

GetBox PyMOL插件:高效智能的分子对接盒子参数计算工具

GetBox PyMOL插件:高效智能的分子对接盒子参数计算工具 【免费下载链接】GetBox-PyMOL-Plugin A PyMOL Plugin for calculating docking box for LeDock, AutoDock and AutoDock Vina. 项目地址: https://gitcode.com/gh_mirrors/ge/GetBox-PyMOL-Plugin 你是…

从模型到服务:HY-MT1.5-1.8B商业化部署指南

从模型到服务:HY-MT1.5-1.8B商业化部署指南 随着多语言交流需求的不断增长,高质量、低延迟的翻译服务成为智能应用的核心能力之一。在众多开源翻译模型中,HY-MT1.5-1.8B 凭借其卓越的性能与轻量化设计脱颖而出,成为边缘计算和实时…

PDF对比神器diff-pdf:让文档差异无处遁形

PDF对比神器diff-pdf:让文档差异无处遁形 【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 你是否曾经为核对两个相似的PDF文档而头疼不已?无论是合同修订、…

Windows热键冲突终极解决方案:一键检测快捷键占用程序

Windows热键冲突终极解决方案:一键检测快捷键占用程序 【免费下载链接】hotkey-detective A small program for investigating stolen hotkeys under Windows 8 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 当你按下熟悉的CtrlC准备复制内…

APA第7版格式自动化工具:让学术写作告别格式烦恼

APA第7版格式自动化工具:让学术写作告别格式烦恼 【免费下载链接】APA-7th-Edition Microsoft Word XSD for generating APA 7th edition references 项目地址: https://gitcode.com/gh_mirrors/ap/APA-7th-Edition 还在为论文参考文献的格式要求而头疼吗&am…

TMSpeech语音识别革命:如何用5分钟彻底改变你的会议记录方式

TMSpeech语音识别革命:如何用5分钟彻底改变你的会议记录方式 【免费下载链接】TMSpeech 腾讯会议摸鱼工具 项目地址: https://gitcode.com/gh_mirrors/tm/TMSpeech 你是否曾在重要会议上手忙脚乱地做笔记,结果漏掉了关键信息?或者在线…

Switch文件管理终极指南:NSC_BUILDER完整使用教程

Switch文件管理终极指南:NSC_BUILDER完整使用教程 【免费下载链接】NSC_BUILDER Nintendo Switch Cleaner and Builder. A batchfile, python and html script based in hacbuild and Nuts python libraries. Designed initially to erase titlerights encryption f…

MetaTube插件完全指南:5步快速配置Jellyfin智能媒体库

MetaTube插件完全指南:5步快速配置Jellyfin智能媒体库 【免费下载链接】jellyfin-plugin-metatube MetaTube Plugin for Jellyfin/Emby 项目地址: https://gitcode.com/gh_mirrors/je/jellyfin-plugin-metatube MetaTube插件是专为Jellyfin媒体服务器设计的强…

显存不足4GB怎么办?DeepSeek-R1-Distill-Qwen-1.5B低成本部署案例解析

显存不足4GB怎么办?DeepSeek-R1-Distill-Qwen-1.5B低成本部署案例解析 1. 背景与挑战:小显存时代的模型部署困境 随着大语言模型能力的持续跃升,其对硬件资源的需求也水涨船高。动辄数十GB显存的70B级模型虽性能强大,却难以在消…

Noto Emoji:企业级表情符号标准化解决方案

Noto Emoji:企业级表情符号标准化解决方案 【免费下载链接】noto-emoji Noto Emoji fonts 项目地址: https://gitcode.com/gh_mirrors/no/noto-emoji 在数字化沟通日益重要的今天,表情符号已经成为现代交流不可或缺的组成部分。然而,不…

开源AI工具新星:AI证件照工坊+Rembg成中小企业首选

开源AI工具新星:AI证件照工坊Rembg成中小企业首选 1. 引言:AI驱动下的证件照生产革新 1.1 行业痛点与技术机遇 传统证件照制作依赖专业摄影棚、人工修图和复杂的后期处理流程,不仅成本高、耗时长,还存在隐私泄露风险。尤其对于…

MinerU智能文档服务监控面板:关键指标可视化

MinerU智能文档服务监控面板:关键指标可视化 1. 引言 1.1 业务场景描述 随着企业数字化转型的深入,非结构化文档数据(如PDF报告、扫描件、财务报表等)在日常运营中占据越来越重要的比重。如何高效地从这些复杂版面文档中提取结…

终极PDF比对神器:5分钟快速掌握diff-pdf完全指南

终极PDF比对神器:5分钟快速掌握diff-pdf完全指南 【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 你是否曾经为核对PDF文件的微小差异而头疼不已?无论是合…

5分钟上手NewBie-image-Exp0.1:零基础玩转动漫生成

5分钟上手NewBie-image-Exp0.1:零基础玩转动漫生成 1. 引言:为什么选择 NewBie-image-Exp0.1 镜像? 在当前 AI 图像生成领域,高质量动漫图像的创作正变得越来越受欢迎。然而,从零搭建一个稳定可用的生成环境往往面临…

Qwen3-VL与InternVL2-8B对比:GUI操作任务准确率实测

Qwen3-VL与InternVL2-8B对比:GUI操作任务准确率实测 1. 背景与测试目标 随着多模态大模型在视觉理解与语言交互能力上的持续突破,基于GUI(图形用户界面)的自动化操作任务正成为衡量模型智能代理能力的重要指标。这类任务要求模型…