transformer bert 多头自注意力

在这里插入图片描述
输入的(a1,a2,a3,a4)是最终嵌入,是一个(512,768)的矩阵;而a1是一个token,尺寸是768
在这里插入图片描述
a1通过wq权重矩阵,经过全连接变换得到查询向量q1;a2通过Wk权重矩阵得到键向量k2;q和k点乘就是值a12,a12就是a2对于a1的注意力值
在这里插入图片描述
依次得到a1,1,a1,2,a1,3,a1,4注意力,都是其他token相对于a1 token的注意力
在这里插入图片描述
此时(a1,1,a1,2,a1,3,a1,4)不是概率分布,需要经过softmax呈概率分布向量(a’1,1,a’1,2,a’1,3,a’1,4),
在这里插入图片描述
此时,再把每个a经过v权重矩阵得到v1,v2,v3,v4向量
在这里插入图片描述

a’1,1×v1+a’1,2×v2+a’1,3×v3+a’1,4×v4=b1向量,b1是个768维向量,是a1的自注意力向量,综合了该token与其他所有tokens之间的关系

之后每个a都这么得到自己的自注意力向量,然后组合成(512,768)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/72095.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot + MyBatis-Plus 项目目录结构

以下是一个标准的 Spring Boot MyBatis-Plus 项目目录结构及文件命名规范,包含每个目录和文件的作用说明,适用于中大型项目开发: 项目根目录结构 src/ ├── main/ │ ├── java/ # Java 源代码 │ │ └── com/…

Webpack优化前端性能

Webpack优化前端性能☆☆ 涵盖了代码分割、懒加载、压缩、缓存优化、Tree Shaking、图片优化、CDN使用等多个方面。 Webpack优化前端性能详解(2025综合实践版) Webpack作为现代前端工程化的核心工具,其优化能力直接影响项目的首屏速度、交互流畅度和用户体验。以下从代码维…

ardunio R4 WiFi连接实战

ardunio WiFi连接模板 ardunio R4 WiFi 开发板有着不错的性能和板载内存,本机自带 WiFi 连接模块,可以完成简单的网络服务。对于这个小东西我情有独钟,也总希望能够用它来做些什么,所以先从 WiFi 连接开始学起,未来考…

C++11 编译使用 aws-cpp-sdk

一、对sdk的编译前准备 1、软件需求 此文档针对于在Linux系统上使用源码进行编译开发操作系统使用原生的contos7Linux。机器配置建议 内存8G以上,CPU 4个 以上GCC 4.9.0 及以上版本Cmake 3.12以上 3.21以下apt install libcurl-devel openssl-devel libuuid-devel pulseaudio-…

得物 Android Crash 治理实践

一、前言 通过修复历史遗留的Crash漏报问题(包括端侧SDK采集的兼容性优化及Crash平台的数据消费机制完善),得物Android端的Crash监控体系得到显著增强,使得历史Crash数据的完整捕获能力得到系统性改善,相应Crash指标也…

SpringBoot3+Lombok如何配置logback输出日志到文件

Background/Requirement SpringBoot3Lombok如何配置logback输出日志到文件,因为我需要对这些日志进行输出,控制台输出和文件输出,文件输出是为了更好的作为AuditLog且支持滚动式备份,每天一个文件。 Technical Solution 1.确保你…

主流向量数据库对比

在 AI 的 RAG(检索增强生成)研发领域,向量数据库是存储和查询向量嵌入的核心工具,用于支持高效的语义搜索和信息检索。向量嵌入是文本或其他非结构化数据的数值表示,RAG 系统通过这些嵌入从知识库中检索相关信息&#…

搞定python之四----函数、lambda和模块

本文是《搞定python》系列专栏的第四篇,通过代码演示列python自定义函数、lambda和模块的用法。本文学习完成后,python的基础知识就完了。后面会学习面向对象的内容。 1、自定义函数 # 测试python自定义函数# 有参数,没有返回值 def say_he…

[操作系统] 学校课程关于“静态优先级抢占式调度“作业

今天我们来分享两道题目哈, 学校弄得题目. T1: 静态优先级, 抢占式(1为高优先级) 图解: 以下是静态优先级抢占式调度的解题过程和结果: 解题思路: 优先级规则: 数值越小优先级越高。新进程到达时,若其优先级高于当前运行进程&…

洛谷P1320 压缩技术(续集版)

P1320 压缩技术(续集版) 题目描述 设某汉字由 N N N \times N NN 的 0 \texttt 0 0 和 1 \texttt 1 1 的点阵图案组成。 我们依照以下规则生成压缩码。连续一组数值:从汉字点阵图案的第一行第一个符号开始计算,按书写顺序从…

使用DeepSeek完成一个简单嵌入式开发

开启DeepSeek对话 请帮我使用Altium Designer设计原理图、PCB,使用keil完成代码编写;要求:使用stm32F103RCT6为主控芯片,控制3个流水灯的原理图 这里需要注意,每次DeepSeek的回答都不太一样。 DeepSeek回答 以下是使…

volatile、synchronized和Lock

名词解释: 指令重排是计算机为了优化执行效率,在不改变单线程程序结果的前提下,对代码的执行顺序进行重新排列的操作。它可能发生在编译阶段(编译器优化)或CPU运行阶段(处理器优化)。 举个栗子…

嵌入式八股C语言---面向对象篇

面向对象与面向过程 面向过程 就是把整个业务逻辑分成多个步骤,每步或每一个功能都可以使用一个函数来实现面向对象 对象是类的实例化,此时一个类就内部有属性和相应的方法 封装 在C语言里实现封装就是实现一个结构体,里面包括的成员变量和函数指针,然后在构造函数中,为结构体…

Distilling the Knowledge in a Neural Network知识蒸馏

一.知识蒸馏的定义 1. 量化VS蒸馏 量化:减小精度 例如参数float32—>float16蒸馏:Student model模仿Teacher model,在保持较高性能的同时,减少模型大小和计算复杂度的技术。 二.知识蒸馏步骤 1.教师模型训练: 训练一个大型且复杂的神…

静态程序分析

参考:https://github.com/RangerNJU/Static-Program-Analysis-Book/blob/master/SUMMARY.md 课件:https://pascal-group.bitbucket.io/teaching.html 视频:南京大学《软件分析》课程01(Introduction)_哔哩哔哩_bilib…

Flutter_学习记录_device_info_plus 插件获取设备信息

引入三方库device_info_plus导入头文件 import package:device_info_plus/device_info_plus.dart;获取设备信息的主要代码 DeviceInfoPlugin deviceInfoPlugin DeviceInfoPlugin(); BaseDeviceInfo deviceInfo await deviceInfoPlugin.deviceInfo;完整案例 import package…

日有所得-google 浏览器离线安装

一、目标: 基于UOS系统进行浏览器插件开发,目标展现形式为侧栏 二、背景: UOS操作系统需支持1032及以上版本 浏览器插件基于google浏览器,自带360等浏览器能兼容基于google浏览器开发的插件 JS库借用Vue库以提高效率 三、问…

高效自动化测试:打造Python+Requests+Pytest+Allure+YAML的接口测试框架

一、背景 在快节奏的开发周期中,如何确保接口质量?自动化测试是关键。通过构建标准化、可复用的测试框架,能显著提升测试效率与准确性,为项目质量保驾护航[1][7]。 二、目标 ✅ 核心目标: ● 实现快速、高效的接口测试…

谈谈List,Set,Map的区别

List、Set 和 Map 是 Java 集合框架(Java Collections Framework)中的三种主要接口,它们各自有不同的特点和用途。以下是它们的区别和使用场景的详细解释: 1. List(列表) 1.1 特点 有序集合:Li…

智能运维管理系统的主要优势

智能运维管理系统通过整合大数据、人工智能、机器学习等技术,显著提升了IT运维的效率和质量。以下是智能运维管理系统的主要优势: 一、提升运维效率 1.自动化运维 自动执行重复性任务(如日志分析、故障排查、系统备份)&#xf…