[论文笔记] PAI-Megatron 源码解读之Mistral的滑动窗口sliding window

[论文笔记] PAI-Megatron 源码解读之Mistral的滑动窗口sliding window

news/2025/10/31 23:20:24/文章来源:https://blog.csdn.net/Trance95/article/details/135920020

这段代码是 _make_causal_mask 函数中处理滑动窗口局部注意力的部分。这里的目的是创建一个额外的掩码，以便在自注意力机制中只考虑每个位置附近的一定数量的位置，而不是所有之前的位置。这通常用于减少计算复杂性和提高长序列处理的效率。

代码分析如下：

diagonal = past_key_values_length - sliding_window + 1: 这里计算的是上三角矩阵（triu）的开始对角线的索引。对于每个位置 i，这个滑动窗口限制它只能看到从位置 i - sliding_window + 1 到位置 i 的信息。如果考虑了历史键值对的长度，那么窗口将从 i + past_key_values_length - sliding_window + 1 开始。
torch.ones_like(mask, dtype=torch.int): 创建一个和 mask 形状相同的全是 1 的张量。这将作为基础矩阵来创建上三角掩码。
torch.triu(...): 创建一个上三角矩阵，其中 diagonal 参数指定了对角线的索引。对角线以上的元素全部为1，对角线以下（含对角线自身）的元素为0。这意味着对于每个位置 i，它只能关注到 i - sliding_window + 1 之后的位置。
context_mask = 1 - torch.triu(...)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/655207.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Python第三方扩展库Matplotlib

Python第三方扩展库Matplotlib

Python第三方扩展库Matplotlib Matplotlib 是第三方库，不是Python安装程序自带的库，需要额外安装，它是Python的一个综合性的绘图库，提供了大量的绘图函数用于创建静态、动态、交互式的图形和数据可视化，可以帮助用户创…

阅读更多...

k8s 进阶实战笔记 | 应用的蓝绿、金丝雀发布笔记

k8s 进阶实战笔记 | 应用的蓝绿、金丝雀发布笔记

文章目录应用的蓝绿、金丝雀发布笔记应用升级策略停机升级滚动更新蓝绿发布金丝雀发布应用的蓝绿、金丝雀发布笔记应用升级策略 Deployment.spec.strategy 设置 Recreate：同时删除所有副本，停机升级策略不存在新老版本共存存在某个时间段服务不可…

阅读更多...

并查集+巧妙分块，Codeforces1424B. 0-1 MST

并查集+巧妙分块，Codeforces1424B. 0-1 MST

目录一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接二、解题报告 1、思路分析 2、复杂度 3、代码详解一、题目 1、题目描述 Ujan has a lot of useless stuff in his drawers, a considerable part of which are his math notebooks: it is time …

阅读更多...

Unity中使用Ultraleap的Slider组件

Unity中使用Ultraleap的Slider组件

Unity中使用Ultraleap的Slider组件，实现物体在指定范围内滑动： 本节在上一节基础上进行，上一小结参考如下： Unity中使用Ultraleap的InteractionButton组件本节工程文件如下： Unity中使用Ultraleap的Slider组件 1、在…

阅读更多...

如何隐藏Selenium特征实现自动化网页采集

如何隐藏Selenium特征实现自动化网页采集

Selenium是一个流行的自动化网页测试工具，可以通过模拟用户在Chrome浏览器中的操作来完成网站的测试。然而，有些网站会检测浏览器是否由Selenium驱动，如果是，就会返回错误的结果或拒绝访问。为了避免这种情况，我们需要…

阅读更多...

Linux编程 1/2 数据结构

Linux编程 1/2 数据结构

数据结构: 程序数据结构算法 1.数据结构: 1.时间复杂度: 数据量的增长与程序运行时间增长所呈现的比例函数,则称为时间渐进复杂度函数简称时间复杂度 O(c) > O(logn)> O(n) > O(nlogn) > O(n^2) > O(n^3) > O(2^n) 2.空间复杂度: 2.类…

阅读更多...

网络安全防御保护 Day4

网络安全防御保护 Day4

要点一：防火墙的智能选路就近选路： 在访问不同运营商的服务器时直接通过对应运营商的链路，以此来提高通信效率，避免绕路。策略路由（PBR）： 这是一种基于用户定义的策略（如业务需求、…

阅读更多...

【MATLAB源码-第128期】基于matlab的雷达系统回波信号仿真，输出脉压，MTI,MTD等图像。

【MATLAB源码-第128期】基于matlab的雷达系统回波信号仿真，输出脉压，MTI,MTD等图像。

操作环境： MATLAB 2022a 1、算法描述雷达（Radio Detection and Ranging）是一种使用无线电波来探测和定位物体的系统。它的基本原理是发射无线电波，然后接收这些波从目标物体上反射回来的信号。通过分析这些反射波&#xff0…

阅读更多...

基于 MATLAB 语言的 BP 神经网络的改进算法

基于 MATLAB 语言的 BP 神经网络的改进算法

摘要: 针对标准 BP 算法存在的缺陷, 本文给出了基于 MATLAB 语言的 BP 神经网络几种改进的算法. 阐述了各种 BP 算法的优化技术原理、优缺点, 并就它们的训练速度和内存消耗情况作了比较. 建议在多数 BP 神经网络训练时, 先尝试使用 Levenberg- Marquardt 算法, 其次是 BFGS …

阅读更多...

STM32的分类和选型

STM32的分类和选型

F系列（主要用于普通应用） STM32F0xx：低成本、低功耗，适用于成本敏感和低功耗的应用。STM32F1xx：中低端微控制器，具有丰富的外设和良好的性能。STM32F2xx：高性能微控制器，适用于要求…

阅读更多...

二维数组的学习

二维数组的学习

前言在前面我们学习了一维数组，但是有的问题需要用二位数组来解决。二维数组常称为矩阵，把二维数组写成行和列的排列形式，可以有助于形象化的理解二维数组的逻辑结构。一、二维数组的定义二维数组定义的一般格式： 数据类型数…

阅读更多...

【英语趣味游戏】填字谜（Crossword）第2天

【英语趣味游戏】填字谜（Crossword）第2天

谜题出处柯林斯字谜大全（6），Collins——Big Book of Crosswords (Book 6) Puzzle Number: 115 本期单词横向 1、Fetch (8) 拿，取，8个字母答案：Retrieve，取到，拿回 5、Common s…

阅读更多...

C/C++笔记-使用mysql-connector-c连接mysql数据库

C/C++笔记-使用mysql-connector-c连接mysql数据库

驱动在这个地方下载： MySQL :: Download MySQL Connector/C (Archived Versions) 我下载的是：mysql-connector-c-6.1.11-winx64 解压后lib有2个，一个是libmysql.lib一个是mysqlclient.lib 他们的区别如下： libmysql.lib 和 m…

阅读更多...

elementui中的tree自定义图标

elementui中的tree自定义图标

需求：实现如下样式的树形列表自定义树的图标以及点击时，可以根据子级的关闭，切换图标 <el-tree :data"treeList" :props"defaultProps"><template #default"{ node, data }"><span class&quo…

阅读更多...

【C/C++ 02】希尔排序

【C/C++ 02】希尔排序

希尔排序虽然是直接插入排序的升级版本，和插入排序有着相同的特性，即原始数组有序度越高则算法的时间复杂度越低（预排序机制），但是是不稳定排序算法。为了降低算法的时间复杂度，所以我们需要在排序之前尽…

阅读更多...

ARCGIS PRO SDK 数据库属性域设置与获取

ARCGIS PRO SDK 数据库属性域设置与获取

一、数据库创建属性域。 sdk3.1 以下的开发版本不支持，不能使用 Pro SDK 向域添加新的编码值，可以使用地理处理工具： 创建属性域 Dim va As IReadOnlyList(Of String) Dim gpResult As ArcGIS.Desktop.Core.Geoprocessing.IGPResult Dim env…

阅读更多...

【EEG信号处理】ERP相关

【EEG信号处理】ERP相关

ERP，全称为event-related potential，中文是事件相关电位。首先要明确的一点是，ERP是根据脑电图EEG得到的，他是EEG的一部分，是最常用的时域分析方法可能有一部分是介绍不到的，望谅解在维基百科中给的定义…

阅读更多...

力扣题集（第一弹）

力扣题集（第一弹）

一日练,一日功;一日不练十日空。学编程离不开刷题，接下来让我们来看几个力扣上的题目。 1. 242. 有效的字母异位词题目描述给定两个字符串 s 和 t ，编写一个函数来判断 t 是否是 s 的字母异位词。注意：若 s 和 t 中每个字符出现的次数…

阅读更多...

docker 修改镜像存储路径

docker 修改镜像存储路径

Docker的默认存储路径通常是磁盘上的一个临时目录。在默认情况下，Docker容器的数据存储在/var/lib/docker目录下，但是这个路径可能会在系统磁盘空间不足时变得不可用。因此，为了确保数据的可靠性和可用性，有必要更改Docker的默认存…

阅读更多...

仅使用 Python 创建的 Web 应用程序（前端版本）第12章_总结

仅使用 Python 创建的 Web 应用程序（前端版本）第12章_总结

在栏目中，我们使用 Streamlit 等 Python 模块创建了一个 Web 应用程序，而无需编写任何 HTML/JS/CSS。我希望这能帮助那些已经开始使用 Flask/Django/FastAPI 但对 HTML/JS/CSS 感到沮丧的人，或者那些想要快速创建演示应用程序的人。 WTS 源代…

阅读更多...

最新文章