attn_scores注意力分计算-记录

querys 是2*6*2,keys也是2*6*2

attn_scores=querys @ keys.transpose(1,2)

attn_scores 最终维度是 2×6×6;数值上是两个矩阵的批量矩阵乘法结果,每个样本对应一个 6×6 的注意力分数矩阵
transpose(1,2) 交换 keys 的第 1 维和第 2 维:keys 原始维度:[2, 6, 2] → 交换后:[2, 2, 6](第一个位置批维度不变)

PyTorch 中@是批量矩阵乘法,规则:
对于维度为 [B, M, N] 的张量 A 和 [B, N, P] 的张量 B
A@B 的结果维度是 [B, M, P](B 是批次,保持不变;M×N 乘 N×P 得到 M×P)

importtorch# 1. 构造querys和keys(维度2×6×2,用简单数值方便计算)querys=torch.tensor([# 第0个样本(6个token,每个token2维)[[1,0],[2,1],[0,1],[3,2],[1,1],[0,0]],# 第1个样本(6个token,每个token2维)[[0,1],[1,0],[2,2],[1,2],[0,2],[2,1]]],dtype=torch.float32)# shape=(2,6,2)keys=torch.tensor([# 第0个样本的keys(和querys结构一致)[[1,2],[0,1],[1,0],[2,1],[0,2],[1,1]],# 第1个样本的keys[[2,0],[1,1],[0,2],[2,1],[1,0],[0,2]]],dtype=torch.float32)# shape=(2,6,2)# 2. 执行transpose和矩阵乘法keys_T=keys.transpose(1,2)# shape=(2,2,6)attn_scores=querys @ keys_T# shape=(2,6,6)# 3. 输出结果print("attn_scores维度:",attn_scores.shape)# 输出:torch.Size([2, 6, 6])print("\n第0个样本的注意力分数矩阵(6×6):")print(attn_scores[0].numpy())# 每个值是query token和key token的点积

输出结果解读:
attn_scores维度: torch.Size([2, 6, 6])

第0个样本的注意力分数矩阵(6×6):

[[ 1. 0. 1. 2. 0. 1.] # 第0个query token对6个key token的分数 [ 4. 1. 2. 5. 2. 3.] # 第1个query token对6个key token的分数 [ 2. 1. 0. 1. 2. 1.] [ 7. 2. 3. 8. 4. 5.] [ 3. 1. 1. 3. 2. 2.] [ 0. 0. 0. 0. 0. 0.]]

数值计算验证(以第 0 个样本的第 0 个 query token 为例):
querys[0,0] = [1, 0]
keys [0,:, :] = 6 个 key token 的 2 维向量:

  • 和第 0 个 key token [1,2] 的点积:1×1 + 0×2 = 1 → 对应矩阵 [0,0] 位置的 1
  • 和第 1 个 key token [0,1] 的点积:1×0 + 0×1 = 0 → 对应矩阵 [0,1] 位置的 0
  • … …
    最终得到 6×6 矩阵,每个位置的值是「query 的第 i 个 token」和「key 的第 j 个 token」的点积(即注意力分数)

核心意义(大模型注意力机制中的关注程度)

6×6 的矩阵就是注意力分数矩阵,含义是:
每个样本有 6 个 token,矩阵中 attn_scores[b, i, j] 代表「第 b 个样本中,第 i 个 token 对第 j 个 token 的关注程度」
后续会对这个矩阵做dropout、softmax归一化,得到和为 1 的注意力权重
再和 values 相乘,实现 “每个 token 融合其他 token 的信息”

维度结论:attn_scores = 2×6×6(batch=2,每个样本对应 6×6 的注意力分数矩阵)
计算逻辑:批量矩阵乘法,[2,6,2]@[2,2,6] → [2,6,6]
数值意义:每个元素是 query token 和 key token 的点积,代表二者的相似度(注意力分数)

dropout

训练过程中随机忽略一些隐藏层单元来有效“丢弃”它们,减少模型对特定隐藏层单元的依赖
避免过拟合,同时dropout仅在训练期间使用

nn.Dropout:
对输入张量的每个元素,以概率p(默认0.5)随机设置为0,同时将未被设置0的元素乘以 1/(1-p) 进行缩放
保证输入的期望均值不变

importtorchimporttorch.nnasnn# 1. 定义Dropout层(p=0.5)dropout=nn.Dropout(p=0.5)# 2. 构造输入张量(值全为10,方便计算均值)x=torch.ones(10000)*10# 1万个元素,每个都是10print("原始输入均值:",x.mean().item())# 输出:10.0# 3. 训练模式下执行Dropout(默认train=True)torch.manual_seed(42)# 固定随机种子,结果可复现x_drop=dropout(x)# 4. 计算Dropout后的均值print("Dropout后均值:",x_drop.mean().item())# 输出≈10.0(因随机采样,略有浮动)print("Dropout后非零元素值:",x_drop[x_drop!=0][0].item())# 输出:20.0(10×2)# 5. 验证模式下(eval),Dropout不生效dropout.eval()x_drop_eval=dropout(x)print("验证模式下均值:",x_drop_eval.mean().item())# 输出:10.0(无任何变化)

Dropout 是大模型(GPT/BERT/LLaMA)中防止过拟合的核心手段,主要用在这些位置:
全连接层(FeedForward):大模型的 FFN 层(如 GPT 的 MLP)会在激活函数后加 Dropout(p=0.1~0.3)
注意力层(Attention):部分模型会在注意力权重计算后加 Dropout,防止对个别 token 过度关注
嵌入层(Embedding):少量模型会在词嵌入后加 Dropout,降低高频词的过拟合风险

大模型中的FFN 层是Feed-Forward Network(前馈网络)的缩写,也常被称作Position-wise Feed-Forward Network(逐位置前馈网络),是 Transformer 架构(GPT/BERT/LLaMA 等大模型的核心骨架)中编码器 / 解码器层的核心组件之一,和多头注意力层(Multi-Head Attention)并列成为 Transformer 的两大核心模块

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1215798.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多头注意力中的张量重塑

view PyTorch 的view() 是张量「重塑(Reshape)」函数,用于改变张量的维度形状但不改变数据本身 在多头注意力中,view()的核心作用是将总隐藏维度拆分为「注意力头数 单头维度」,实现多头并行计算 核心规则 tensor.vie…

第二周作业wp

第二周作业wp [SWPUCTF 2021 新生赛]easyupload3.0 题目提示已经很明显了,我们要提交一个.jpg的文件。那么我们就把一个木马文件做成jpg文件。 这里我们把文件成功上传,然后通过蚁剑连接 连接之后,寻找flag。 如图,成功找到。 2…

吐血推荐专科生必用TOP9AI论文网站

吐血推荐专科生必用TOP9AI论文网站 2026年专科生论文写作工具测评:为何需要一份精准榜单? 随着AI技术在教育领域的深入应用,越来越多的专科生开始借助AI工具提升论文写作效率。然而,面对市场上五花八门的论文辅助平台,…

Python 调用大模型(LLM) - 努力-

Python 调用大模型(LLM)Python 调用大模型(LLM),提示词工程一、提示词工程 提示词(Prompt):是引导大模型(LLM)进行内容生成的命令(一句话、一个问题等)。 提示词工程(Prompt Enginnering):通过有技巧的编写提示…

Python核心语法-Python自定义模块、Python包 - 努力-

Python核心语法-Python自定义模块、Python包Python核心语法,Python自定义模块、Python包一、python 模块 Python模块(module):一个Python文件(.py)就是一个模块,模块是Python程序的基本组织单位。在模块中可以定义…

亲测好用9个一键生成论文工具,助本科生轻松写论文!

亲测好用9个一键生成论文工具,助本科生轻松写论文! AI 工具的崛起,让论文写作不再难 对于本科生来说,写论文一直是令人头疼的事情。从选题、查资料到撰写和降重,每一个环节都可能成为“卡壳”的点。而随着 AI 技术的不…

为什么您的机房必须选择本地化 U 位资产管理系统?供应商服务深度解析

机房 U 位资产管理是数据中心运营的核心环节,传统云端管理模式在实时性、数据安全与服务响应上的短板,进一步放大了空间利用率低、资产跟踪难、安全合规难三大痛点,成为机房高效运营的阻碍。本地化 U 位资产管理系统依托数据本地存储、实时交…

人群仿真软件:Vadere_(3).用户界面操作

用户界面操作 1. 基本操作 Vadere是一款强大的人群仿真软件,其用户界面设计旨在为用户提供直观且易用的操作体验。在本节中,我们将详细介绍如何进行基本的用户界面操作,包括启动软件、创建和加载仿真场景、基本导航和工具栏的使用。 1.1 启…

人群仿真软件:Vadere_(1).Vadere简介与安装

Vadere简介与安装 Vadere简介 Vadere是一款开源的人群仿真软件,旨在模拟复杂环境中的行人流动行为。它结合了多种先进的仿真算法和模型,能够准确地预测和分析人群在不同环境下的动态行为。Vadere不仅可以用于学术研究,还可以在城市规划、建…

人群仿真软件:Vadere_(2).Vadere基本操作与界面

Vadere基本操作与界面 启动Vadere 启动过程 Vadere是一款基于Java的人群仿真软件,可以通过以下步骤启动: 安装Java环境:确保您的计算机上安装了Java运行环境(JRE)或Java开发工具包(JDK)。您可…

AI原生应用领域:思维树带来的变革

AI原生应用领域:思维树带来的变革 关键词:AI原生应用、思维树(Tree of Thoughts)、大语言模型、多步推理、认知架构、智能决策、生成式AI 摘要:传统AI应用常因“单步思维”局限于简单任务,而“思维树&#…

免费工艺流程模板下载_在线编辑建筑/汽车/物流工艺流程图图表

良功绘图网站 (https://www.lghuitu.com ) 在建筑、汽车、物流等行业的日常运营与项目推进中,工艺流程可视化是提升效率、规范管理的核心手段。无论是建筑工程的施工管控、汽车制造的生产线优化,还是物流行业的仓储配送调度,一份清晰、规范的…

亲测好用!8个AI论文平台测评,研究生毕业论文必备

亲测好用!8个AI论文平台测评,研究生毕业论文必备 2026年AI论文平台测评:从功能到体验的深度解析 随着人工智能技术在学术领域的广泛应用,越来越多的研究生开始依赖AI工具来提升论文写作效率。然而,面对市场上五花八门的…

提升效率:如何为企业挑选完美的RFID解决方案

在物联网赋能企业数字化转型的进程中,RFID(射频识别)技术凭借非接触式批量读取、数据实时上传、标签抗磨损等核心优势,已成为物流仓储、智能制造、零售管控等领域提升效率的关键抓手。然而,多数企业在选型时易陷入“参…

第三十四周 学习周报

摘要 今日通过排气岐管的模型学习了CFD前处理中几何结构定义的关键设置,通过回答模型类型、开口封堵及区域抽取等核心问题,将实体CAD模型转化为可用于流体仿真的计算域,为网格划分奠定基础。 Abstract Today, through the exhaust manifol…

智能座舱:汽车内饰的交互革命

一、引言:从交通工具到第三空间的本质变革 汽车产业的百年演进中,座舱始终是连接人与车的核心载体。从最初仅满足驾乘功能的机械空间,到如今集成人工智能、物联网、显示技术的智能终端,座舱的进化史本质上是一部人机交互的革命史。…

学校教室多功能布局平面图在线设计的实用技巧和方法

在教育多元化发展的当下,学校教室早已不再是单一的“授课空间”,而是需要兼顾知识传授、小组协作、实践操作、活动开展等多重需求的多功能场景。一套科学合理的教室布局平面图,不仅能提升空间利用率,还能适配不同教学模式&#xf…

柔性生产:小批量定制与大规模生产的完美融合

一、生产模式的时代演进:从规模标准化到柔性协同化 工业革命以来,生产模式的变革始终围绕着“效率”与“需求”的平衡不断迭代。上世纪初,福特汽车开创的流水线大规模生产模式,以标准化产品、专业化分工和连续性作业为核心&#x…

循环经济在不同行业的应用前景比较

循环经济在不同行业的应用前景比较 关键词:循环经济、行业应用、应用前景、可持续发展、资源利用 摘要:本文旨在深入探讨循环经济在不同行业的应用前景并进行比较。首先介绍了循环经济的背景知识,包括其目的、适用读者、文档结构和相关术语。接着阐述了循环经济的核心概念、…

LoRA微调的指标

目录1. train/num_tokens2. train/mean_token_accuracy3. train/loss4. train/learning_rate5. train/grad_norm6. train/global_step7. train/epoch8. train/entropy什么是梯度爆炸1. 梯度爆炸的典型表现(与当前图对…