LongNet: Scaling Transformers to 1,000,000,000 Tokens

news/2025/11/3 17:19:34/文章来源:https://www.cnblogs.com/Bcai0797/p/19187664

LongNet: Scaling Transformers to 1,000,000,000 Tokens

LongNet:通过类似线段树的形式构建自注意力的稀疏掩码,从而降低长序列下的计算复杂度

动机

本文旨在降低注意力的计算复杂度,从而实现对长序列处理的支持。本文方法成功将可处理的序列长度拓展到了十亿(1 billion)。

img

方法

img

本文的核心思路是参考线段树的构造方式,将指数级变化的稀疏掩码组合在一起。

img

多头的情况下会进行一些移位。

假设序列长度为\(N\),特征维度为\(d\),分段尺寸(segment size)为\(r\),空洞率(dilated rate)为\(w\),则计算复杂度为:

\[FLOPs=\frac{2N}{w}(\frac{w}{r})^2d=\frac{2Nwd}{r^2} \]

如果采用多种\((r,w)\)的设置:

\[FLOPs=2Nd\sum^k_{i=1}{\frac{w_i}{r_i^2}} \]

\((r,w)\)增长的倍率为\(\alpha>1\)

\[FLOPs=2w_0Nd\sum^{k-1}_{i=0}{\frac{1}{\alpha^i}} \leq \frac{2\alpha}{\alpha-1}w_0Nd \]

从计算复杂度估计的角度来看,\(\alpha\)\(w_0\)的取值通常都比较小且远小于\(N\)\(d\),可视为常数。所以最终的计算复杂度估计可近似为\(\mathcal{O}(Nd)\)

实验

img

有明显的计算效率改善。

应用

Prov-GigaPath将超高分辨率的病理切片图像切分为若干小块,每块视为一个token,形成一个长序列,由此适配本文方法。

总结

本文的亮点在于对超长序列的支持。这一特点在许多热门领域不算特别有用,毕竟1B长度的token序列还是比较少见,本文似乎也没有在学术刊物上发表。但是其在特定领域还是能够发光发热,最终获得令人瞩目的成果,或许这就是技术积累的意义。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/954708.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu服务器禁用NVIDIA自动更新驱动脚本

#!/bin/bash # ===================================================== # Ubuntu 自动升级防护脚本 - 防止 NVIDIA 驱动被自动更新 # 适用于 Ubuntu 18.04/20.04/22.04+ # =========================================…

2025高性价比Facebook广告品牌企业TOP5推荐:精准引流与高效转化的权威测评指南

在全球数字化营销浪潮下,Facebook广告凭借29亿月活用户的流量池,成为企业触达全球消费者的核心渠道。2024年数据显示,亚太地区Facebook广告投放企业同比增长38%,但62%的企业面临广告成本高企、精准度不足、转化链路…

如何优化机器人拨打电话软件的通话效率?实用技巧!

在各类客服外呼、业务通知和用户回访场景中,机器人拨打电话软件已经成为企业提高沟通效率的重要工具。相比传统人工外呼,它可以自动批量拨号、智能识别客户意图、实时记录通话结果,大幅节约人力成本。然而,在实际应…

Android Studio: Plugin with id com.android.library not found

导入第三方jar 源码时,经常会报下面错误:Plugin with id com.android.library not found这是由于创建jar 源码时的 gradle 版本和你本地 studio gradle版本不一致导致。 最简单做法: 1.新建一个项目 2.打开最外层…

2025年度资深房地产模型企业推荐,专业房地产模型工作室与服务商全解析

在房地产项目展示、营销与决策过程中,高品质的房地产模型是传递项目价值、打动客户的核心载体。面对市场上众多房地产模型工作室与服务商,如何挑选到专业可靠的合作伙伴?以下结合不同服务类型,为您推荐2025年度十大…

2025 年工业商城小程序最新推荐排行榜:涵盖多领域设备,解析实力企业核心优势与选择要点节能环保/车间工具/智能制造/数控转台工业商城推荐

引言 当前,制造业正加速向智能化、高端化转型,机械加工领域在发展中面临设备采购难、优质供应商对接不畅、绿色生产方案匮乏等问题。工业商城小程序本是解决这些问题的关键载体,但市场产品质量参差不齐,企业难以抉…

JYU-ACM算法协会周赛题解 (每周刷新)

week1 普及组 点击跳转 提高组 点击跳转

SAP 字段名+RANGE表

结构:FMRPF_FRANGE 表类型:FMRPF_FRANGE_T

SAP 字段名+RANGE表

结构:FMRPF_FRANGE 表类型:FMRPF_FRANGE_T

2025口碑好的污水提升器源头厂家TOP5推荐:甄选不锈钢污水提升器服务商,破解排放难题

在城市化进程加速与环保要求趋严的背景下,污水提升器作为解决低洼区域污水排放、复杂场景废水处理的核心设备,市场需求持续攀升。数据显示,2024年国内污水提升设备市场规模突破90亿元,年增速达18%,但行业中仍存在…

2025年杭州婚姻家事律师推荐:孙旭权律师免费咨询

TOP1推荐:浙江伦和律师事务所孙旭权律师 评价指数:★★★★★ 口碑评分:99分 行业表现:A+++++级 电话号码:13666633488 官网:https://mp.weixin.qq.com/s/_bMwUmkN8G7NTIXepJ_Afw 介绍: 浙江伦和律师事务所孙旭…

2025 年自润滑轴承厂家最新推荐排行榜:聚焦高承载技术、全球客户口碑及协会权威测评的优质品牌榜单无油向心/复合向心/耐磨向心关节轴承公司推荐

引言 自润滑轴承作为机械装备核心零部件,其性能直接影响设备运行效率与寿命。当前市场存在产品质量参差不齐、企业难选优质品牌的问题,为此,行业权威协会开展专项测评,形成 2025 年自润滑轴承制造商最新推荐榜单。…

2025年5吨龙门吊供货厂家权威推荐榜单:二手5吨龙门吊/10吨龙门吊/MG门式龙门吊设备源头厂家精选

在工业起重设备领域,5吨龙门吊作为中型物料搬运的关键设备,其结构稳定性与操控精确性直接关系到生产效率和作业安全。高品质龙门吊能够实现精准定位,提升物料流转效率25%以上,同时将运行故障率控制在1%以下。随着2…

系统关键信息收集

点击查看代码 #!/bin/bash # 系统关键信息收集脚本(修复版) # 功能:收集CPU/内存/磁盘/系统版本等核心信息,解决磁盘使用率判断语法错误# 颜色定义(异常指标标注) RED=\033[0;31m YELLOW=\033[1;33m NC=\033[0m …

ROS2之仿真

机器人的建模和仿真一般用于实机部署之前进行算法的虚拟测试 机器人建模的核心文件:URDF URDF 基本组成<link>:刚体部分(如底盘、机械臂连杆)<joint>:连接关系(如旋转、滑动)<inertial>:惯性…

高速轴承和普通轴承怎么区分?

轴承是机床、磨床等设备都会用到的传动装置,它们不但要承受设备工作载荷,同时要能满足工况的转速需求。不同加工机床运行速度不一样,像电主轴、磨床这样的设备需要用到高速轴承,但是怎么区分高速轴承与普通轴承呢?…

20232409 2025-2026-1 《网络与系统攻防技术》实验六实验报告

Metasploit攻击渗透实践 1.实验内容1.1发现Metasploitable2靶机,并对其进行端口扫描、漏洞扫描;1.2利用Vsftpd源码包后门漏洞;1.3利用SambaMS-RPC Shell命令注入漏洞;1.4利用Java RMI SERVER命令执行漏洞;1.5利用…

vue3+ts+pinia项目实现数据持久化配置

vue3+ts+pinia项目实现数据持久化配置前言: 在AI的协助下,捣鼓了好一会儿才搞定,遇到了配置persist单词拼错的,也有main.ts文件没配的,最后一步步排查所有问题才搞定了。这里就贴下所有相关的配置,也希望其他网友…

2025年金属线材加工设备企业排名:江苏优轧机械有限公司

TOP1推荐:江苏优轧机械有限公司 评价指数:★★★★★ 口碑评分:99分 行业表现:A+++++级 介绍: 江苏优轧机械有限公司电话号码:18934554856 官网:www.youzha.net.cn 在金属线材加工设备领域深耕20余年,专注金属…

手把手搭建Python+Pytest+Selenium自动化环境,从零开始一点都不难!

环境搭建是自动化测试的第一步,也是很多新手容易卡住的地方。希望这篇教程能帮你顺利迈出第一步!今天给大家带来一篇纯干货教程,保证小白也能看懂学会! 最近很多朋友在问:“二黑,我想学自动化测试,但环境都搭不…