LongNet: Scaling Transformers to 1,000,000,000 Tokens

news/2025/11/3 17:19:34/文章来源:https://www.cnblogs.com/Bcai0797/p/19187664

LongNet: Scaling Transformers to 1,000,000,000 Tokens

LongNet：通过类似线段树的形式构建自注意力的稀疏掩码，从而降低长序列下的计算复杂度

动机

本文旨在降低注意力的计算复杂度，从而实现对长序列处理的支持。本文方法成功将可处理的序列长度拓展到了十亿（1 billion）。

方法

本文的核心思路是参考线段树的构造方式，将指数级变化的稀疏掩码组合在一起。

多头的情况下会进行一些移位。

假设序列长度为\(N\)，特征维度为\(d\)，分段尺寸（segment size）为\(r\)，空洞率（dilated rate）为\(w\)，则计算复杂度为：

\[FLOPs=\frac{2N}{w}(\frac{w}{r})^2d=\frac{2Nwd}{r^2} \]

如果采用多种\((r,w)\)的设置：

\[FLOPs=2Nd\sum^k_{i=1}{\frac{w_i}{r_i^2}} \]

令\((r,w)\)增长的倍率为\(\alpha>1\)：

\[FLOPs=2w_0Nd\sum^{k-1}_{i=0}{\frac{1}{\alpha^i}} \leq \frac{2\alpha}{\alpha-1}w_0Nd \]

从计算复杂度估计的角度来看，\(\alpha\)和\(w_0\)的取值通常都比较小且远小于\(N\)和\(d\)，可视为常数。所以最终的计算复杂度估计可近似为\(\mathcal{O}(Nd)\)

实验

有明显的计算效率改善。

应用

Prov-GigaPath将超高分辨率的病理切片图像切分为若干小块，每块视为一个token，形成一个长序列，由此适配本文方法。

总结

本文的亮点在于对超长序列的支持。这一特点在许多热门领域不算特别有用，毕竟1B长度的token序列还是比较少见，本文似乎也没有在学术刊物上发表。但是其在特定领域还是能够发光发热，最终获得令人瞩目的成果，或许这就是技术积累的意义。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/954708.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Ubuntu服务器禁用NVIDIA自动更新驱动脚本

Ubuntu服务器禁用NVIDIA自动更新驱动脚本

#!/bin/bash # ===================================================== # Ubuntu 自动升级防护脚本 - 防止 NVIDIA 驱动被自动更新 # 适用于 Ubuntu 18.04/20.04/22.04+ # =========================================…

阅读更多...

2025高性价比Facebook广告品牌企业TOP5推荐：精准引流与高效转化的权威测评指南

2025高性价比Facebook广告品牌企业TOP5推荐：精准引流与高效转化的权威测评指南

在全球数字化营销浪潮下，Facebook广告凭借29亿月活用户的流量池，成为企业触达全球消费者的核心渠道。2024年数据显示，亚太地区Facebook广告投放企业同比增长38%，但62%的企业面临广告成本高企、精准度不足、转化链路…

阅读更多...

如何优化机器人拨打电话软件的通话效率？实用技巧！

如何优化机器人拨打电话软件的通话效率？实用技巧！

在各类客服外呼、业务通知和用户回访场景中，机器人拨打电话软件已经成为企业提高沟通效率的重要工具。相比传统人工外呼，它可以自动批量拨号、智能识别客户意图、实时记录通话结果，大幅节约人力成本。然而，在实际应…

阅读更多...

Android Studio: Plugin with id com.android.library not found

Android Studio: Plugin with id com.android.library not found

导入第三方jar 源码时，经常会报下面错误：Plugin with id com.android.library not found这是由于创建jar 源码时的 gradle 版本和你本地 studio gradle版本不一致导致。最简单做法： 1.新建一个项目 2.打开最外层…

阅读更多...

2025年度资深房地产模型企业推荐，专业房地产模型工作室与服务商全解析

2025年度资深房地产模型企业推荐，专业房地产模型工作室与服务商全解析

在房地产项目展示、营销与决策过程中，高品质的房地产模型是传递项目价值、打动客户的核心载体。面对市场上众多房地产模型工作室与服务商，如何挑选到专业可靠的合作伙伴？以下结合不同服务类型，为您推荐2025年度十大…

阅读更多...

2025 年工业商城小程序最新推荐排行榜：涵盖多领域设备，解析实力企业核心优势与选择要点节能环保/车间工具/智能制造/数控转台工业商城推荐

2025 年工业商城小程序最新推荐排行榜：涵盖多领域设备，解析实力企业核心优势与选择要点节能环保/车间工具/智能制造/数控转台工业商城推荐

引言当前，制造业正加速向智能化、高端化转型，机械加工领域在发展中面临设备采购难、优质供应商对接不畅、绿色生产方案匮乏等问题。工业商城小程序本是解决这些问题的关键载体，但市场产品质量参差不齐，企业难以抉…

阅读更多...

JYU-ACM算法协会周赛题解 (每周刷新)

JYU-ACM算法协会周赛题解 (每周刷新)

week1 普及组点击跳转提高组点击跳转

阅读更多...

SAP 字段名+RANGE表

SAP 字段名+RANGE表

结构：FMRPF_FRANGE 表类型：FMRPF_FRANGE_T

阅读更多...

SAP 字段名+RANGE表

SAP 字段名+RANGE表

结构：FMRPF_FRANGE 表类型：FMRPF_FRANGE_T

阅读更多...

2025口碑好的污水提升器源头厂家TOP5推荐：甄选不锈钢污水提升器服务商，破解排放难题

2025口碑好的污水提升器源头厂家TOP5推荐：甄选不锈钢污水提升器服务商，破解排放难题

在城市化进程加速与环保要求趋严的背景下，污水提升器作为解决低洼区域污水排放、复杂场景废水处理的核心设备，市场需求持续攀升。数据显示，2024年国内污水提升设备市场规模突破90亿元，年增速达18%，但行业中仍存在…

阅读更多...

2025年杭州婚姻家事律师推荐：孙旭权律师免费咨询

2025年杭州婚姻家事律师推荐：孙旭权律师免费咨询

TOP1推荐：浙江伦和律师事务所孙旭权律师评价指数：★★★★★ 口碑评分：99分行业表现：A+++++级电话号码：13666633488 官网：https://mp.weixin.qq.com/s/_bMwUmkN8G7NTIXepJ_Afw 介绍：浙江伦和律师事务所孙旭…

阅读更多...

2025 年自润滑轴承厂家最新推荐排行榜：聚焦高承载技术、全球客户口碑及协会权威测评的优质品牌榜单无油向心/复合向心/耐磨向心关节轴承公司推荐

2025 年自润滑轴承厂家最新推荐排行榜：聚焦高承载技术、全球客户口碑及协会权威测评的优质品牌榜单无油向心/复合向心/耐磨向心关节轴承公司推荐

引言自润滑轴承作为机械装备核心零部件，其性能直接影响设备运行效率与寿命。当前市场存在产品质量参差不齐、企业难选优质品牌的问题，为此，行业权威协会开展专项测评，形成 2025 年自润滑轴承制造商最新推荐榜单。…

阅读更多...

2025年5吨龙门吊供货厂家权威推荐榜单：二手5吨龙门吊/10吨龙门吊/MG门式龙门吊设备源头厂家精选

2025年5吨龙门吊供货厂家权威推荐榜单：二手5吨龙门吊/10吨龙门吊/MG门式龙门吊设备源头厂家精选

在工业起重设备领域，5吨龙门吊作为中型物料搬运的关键设备，其结构稳定性与操控精确性直接关系到生产效率和作业安全。高品质龙门吊能够实现精准定位，提升物料流转效率25%以上，同时将运行故障率控制在1%以下。随着2…

阅读更多...

系统关键信息收集

系统关键信息收集

点击查看代码 #!/bin/bash # 系统关键信息收集脚本（修复版） # 功能：收集CPU/内存/磁盘/系统版本等核心信息，解决磁盘使用率判断语法错误# 颜色定义（异常指标标注） RED=\033[0;31m YELLOW=\033[1;33m NC=\033[0m …

阅读更多...

ROS2之仿真

ROS2之仿真

机器人的建模和仿真一般用于实机部署之前进行算法的虚拟测试机器人建模的核心文件：URDF URDF 基本组成<link>：刚体部分（如底盘、机械臂连杆）<joint>：连接关系（如旋转、滑动）<inertial>：惯性…

阅读更多...

高速轴承和普通轴承怎么区分？

高速轴承和普通轴承怎么区分？

轴承是机床、磨床等设备都会用到的传动装置，它们不但要承受设备工作载荷，同时要能满足工况的转速需求。不同加工机床运行速度不一样，像电主轴、磨床这样的设备需要用到高速轴承，但是怎么区分高速轴承与普通轴承呢？…

阅读更多...

20232409 2025-2026-1 《网络与系统攻防技术》实验六实验报告

20232409 2025-2026-1 《网络与系统攻防技术》实验六实验报告

Metasploit攻击渗透实践 1.实验内容1.1发现Metasploitable2靶机，并对其进行端口扫描、漏洞扫描；1.2利用Vsftpd源码包后门漏洞；1.3利用SambaMS-RPC Shell命令注入漏洞；1.4利用Java RMI SERVER命令执行漏洞；1.5利用…

阅读更多...

vue3+ts+pinia项目实现数据持久化配置

vue3+ts+pinia项目实现数据持久化配置

vue3+ts+pinia项目实现数据持久化配置前言：在AI的协助下，捣鼓了好一会儿才搞定，遇到了配置persist单词拼错的，也有main.ts文件没配的，最后一步步排查所有问题才搞定了。这里就贴下所有相关的配置，也希望其他网友…

阅读更多...

2025年金属线材加工设备企业排名：江苏优轧机械有限公司

2025年金属线材加工设备企业排名：江苏优轧机械有限公司

TOP1推荐：江苏优轧机械有限公司评价指数：★★★★★ 口碑评分：99分行业表现：A+++++级介绍：江苏优轧机械有限公司电话号码：18934554856 官网：www.youzha.net.cn 在金属线材加工设备领域深耕20余年，专注金属…

阅读更多...

手把手搭建Python+Pytest+Selenium自动化环境，从零开始一点都不难！

手把手搭建Python+Pytest+Selenium自动化环境，从零开始一点都不难！

环境搭建是自动化测试的第一步，也是很多新手容易卡住的地方。希望这篇教程能帮你顺利迈出第一步！今天给大家带来一篇纯干货教程，保证小白也能看懂学会！最近很多朋友在问：“二黑，我想学自动化测试，但环境都搭不…

阅读更多...

最新文章