上交大 × 华为小艺推出LoPA:7B扩散语言模型单样例1000+ tokens/s!

单样例推理速度对比:SGLang 部署的 Qwen3-8B (NVIDIA) vs. LoPA-Dist 部署 (NVIDIA & Ascend)(注:NVIDIA平台相同,配置对齐)

在大语言模型(LLMs)领域,扩散大语言模型(dLLMs)因其并行预测特性,理论上具备超越传统自回归(AR)模型的推理速度潜力。然而在实践中,受限于现有的解码策略,dLLMs 的单步生成往往局限于 1-3 个 Token,难以真正释放其并行潜力。

近期,上海交通大学 DENG Lab 联合华为小艺团队的一项新研究打破了这一瓶颈。该工作提出了一种名为 LoPA (Lookahead Parallel Decoding) 的无需训练的解码算法,通过主动探索最优填词顺序,显著提升了 dLLMs 的推理并行度和吞吐量。

实验显示,LoPA 将 D2F-Dream 在 GSM8K 基准上的单步生成 Token 数(TPF)从 3.1 提升至 10.1,并行度提升超 3 倍。配合团队自研的 LoPA-Dist 分布式推理系统,在华为 Ascend 910C 平台上实现了 1073.9 tokens/s 的单样本吞吐量,不仅大幅超越基线模型,更将 dLLMs 的推理效率推向了新高度。

图 1:LoPA的吞吐量结果展示。

LoPA 将 D2F-Dream 的单样本吞吐量在 MBPP 和 GSM8K 上分别提升至高达 1073.9 和 856.5 个 token/s,显著优于基线方法。

本文作者团队来自上海交通大学 DENG Lab 与华为小艺团队。该研究由徐晨开、金义杰同学等人共同完成,指导教师为邓志杰老师。DENG Lab 隶属上海交通大学,致力于高效、跨模态生成模型的研究。

  • 论文地址:https://arxiv.org/abs/2512.16229

  • 代码地址:https://github.com/zhijie-group/LoPA

  • 博客地址:https://zhijie-group.github.io/blogs/lopa

简单来说,LoPA 为 dLLMs 赋予了以下核心特性:

  1. 极高的并行度:首次将 dLLMs 的每步生成数量(TPF)提升至 10 Token 量级,突破了传统方法的效率瓶颈。

  2. 无需训练:作为一种即插即用的解码算法,无需对模型进行重训或微调。

  3. 前瞻并行解码:通过引入分支并行机制,主动探索不同的填词顺序(TFO),避免模型陷入低置信度的局部最优。

  4. 系统级加速:配套设计的 LoPA-Dist 系统,支持 CUDA 和 Ascend 双平台,通过分支并行最大化硬件利用率。

图 2:对不同分支数的 D2F-Dream 进行 LoPA 扩展性分析。

结果表明,LoPA 能有效扩展 D2F 的 TPF,使其峰值超过 10,从而显著减少解码总步骤数。

问题的根源:填词顺序限制并行潜力

dLLMs 理论上支持全序列并行生成,但在实际应用中,现有的主流模型(如 Fast-dLLM, D2F, SDAR)普遍采用置信度驱动采样(Confidence-Driven Sampling)。这种策略倾向于贪婪地优先填充当前置信度最高的位置。

研究团队发现,并行度的高低与填词顺序(Token Filling Order, TFO)高度相关。贪婪策略虽然在当前步骤保证了准确性,但并不考虑后续步骤的预测置信度,导致模型在后续迭代中并没有充分释放并行度。

图 3:LoPA 算法流程概览。

在每次迭代中,LoPA 通过独立采样高置信度位置,生成一个锚定分支以及多个前瞻分支。然后,分支置信度验证机制并行评估所有分支,以选择最优路径。

LoPA 的核心设计:前瞻并行与分支验证

为了解决上述问题,LoPA 引入了前瞻并行解码机制。其核心思想是:利用少量的额外计算开销,同时探索多种填词顺序,从而找到一条能让未来预测“更自信”的路径。

LoPA 的工作流程包含三个关键阶段:

  1. 多分支并行探索
    LoPA 在保留标准锚点分支(Anchor Branch,即常规贪婪策略)的同时,额外对当前的最高置信度的k个位置分别采样得到k个前瞻分支(Lookahead Branches)。每个分支代表一种不同的填词顺序尝试。

  2. 分支置信度验证
    团队设计了分支置信度(Branch Confidence)指标,用于量化分支中剩余未填位置的平均预测置信度。较高的分支置信度意味着该路径在下一轮迭代中能填充更多的 Token,具备更高的并行潜力。

  3. 并行验证与复用
    通过隔离不同分支的注意力设计,所有候选分支(锚点+前瞻)可以在一次前向传递中并行完成验证。系统最终选择未来潜力最大的分支作为本次迭代结果。验证过程中计算的 Logits 被直接复用于下一步生成,无需额外前向传播。

图 4:LoPA 分支并行分布式推理系统设计展示。

关键区别在于针对不同后端定制的键值缓存管理协议:LoPA-Dist-NV 采用稳健的两阶段更新机制以确保一致性,而LoPA-Dist-Ascend 则采用精简的单阶段更新策略以优化服务效率。

系统级创新:LoPA-Dist 分布式推理

为了承载 LoPA 的多分支计算,团队设计了 LoPA-Dist 分布式推理系统,引入了全新的分支并行(Branch Parallelism, BP)策略,可与张量并行(Tensor Parallelism,TP)等现有并行机制混合使用。

该系统针对不同硬件平台进行了定制优化:

  1. LoPA-Dist-NV(CUDA):面向低延迟场景。采用静态 KV Cache 和独创两阶段更新协议(Pre-Write & Commit-Winner-Cache),确保分支切换时的缓存一致性。

  2. LoPA-Dist-Ascend(Ascend 910C):面向高吞吐服务场景。采用混合并行策略(TP+BP),结合图编译技术融合算子,异步调度,以及量化机制,大幅降低 Kernel 启动开销。

图 5:LoPA 的并行度扩展曲线。

在 GSM8K 和 HumanEval+ 上,LoPA 分别将 D2F-Dream 和 D2F-DiffuCoder 的TPF 分别扩展至高达 10.1 和 8.3,并保持和基线相当的性能。

实验结果:速度与质量的双重提升

并行度:单步突破 10 Token

LoPA在 SOTA 扩散语言模型 D2F 上进行了实验。实验结果表明,随着前瞻分支数量的增加,模型的 TPF 呈现显著上升趋势。在 GSM8K 任务上,LoPA 将 D2F-Dream 的 TPF 推高至 10.1,大幅缩短了总推理步数。

表 1:LoPA集成D2F-Dream 的性能。

LoPA 集成的 D2F-Dream 在多个基准测试中实现了保持精度的TPF提升。

表 2:LoPA集成D2F-Diffucoder 的性能。

LoPA 集成的 D2F-DiffuCoder 在代码任务中实现了保持精度的TPF提升。

系统吞吐量

在系统层面,LoPA-Dist 展现了优异的扩展能力。在华为 Ascend 910C 平台上,系统实现了 1073.86 tokens/s 的峰值吞吐量。

表 3:LoPA系统性能。

结果表明,我们的系统能够有效地将算法并行性(高TPF)转化为显著的实际运行时间加速,在专用的LoPA-Dist-Ascend引擎上实现了超过1000 token/s的平均吞吐量。

总结与展望

LoPA 通过算法与系统的协同设计,成功突破了 dLLM 推理的并行度瓶颈,证明了非自回归模型在保持高性能的同时,能够实现远超传统模型的推理速度。团队表示,未来将进一步探索 LoPA 在 SDAR 等更多 dLLM 架构上的应用,推动高效生成模型的落地。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1118579.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

定制铂金坩埚生产厂家哪家好?2025年度榜单 - 品牌推荐大师

2021至2025年间,中国铂金坩埚产能年均复合增长率约为6.8%,2025年产量已突破12万件,市场规模达到约28亿元人民币。预计2026至2030年间将以年均复合增长率约9.5%的速度稳步扩张,到2030年市场规模有望突破43亿元;也有…

无人机自主导航试验:搭载VibeThinker实现避障决策

无人机自主导航试验:搭载VibeThinker实现避障决策 在消费级无人机穿越密集树林的飞行测试中,一个关键问题始终困扰着开发者:如何让飞行器在没有预设地图、算力有限的情况下,实时“想出”一条既能绕开突发障碍又能高效抵达目标的路…

Java 后端框架的龙头之选—Spring Boot

Java 后端框架的龙头之选—Spring Boot 在技术语言革新极快的今天,尤其对于需要技术沉淀的后端工程师来说,靠什么实力逆风翻盘?在 Java 框架尚且繁荣的当下,Spring Boot 无疑是最火最实用的,也是必不可少的开源框…

公益组织合作项目:为视障人士开发语音交互推理助手

公益组织合作项目:为视障人士开发语音交互推理助手 在一场面向特殊教育学校的调研中,一位视障高中生向我们提出了一个简单却令人深思的问题:“老师讲的几何证明我记不住步骤,能不能有个‘会思考’的声音,像同桌一样一步…

法律条文解释助手:梳理复杂法规之间的引用网络

法律条文解释助手:梳理复杂法规之间的引用网络 在法律实务中,一个看似简单的条款适用问题,往往牵扯出一张错综复杂的引用网络。比如,“初次违法能否免罚”这一问题,可能同时涉及《行政处罚法》第33条、“两高”司法解释…

CWDM光模块 是啥

CWDM光模块 是啥CWDM 光模块 是一种用于光纤通信的 粗波分复用(Coarse Wavelength Division Multiplexing)光模块,在通信、数据中心、工业网络里都很常见。 我给你用工程师能听懂的方式讲👇一句话先懂CWDM 光模块…

Spring-boot读书笔记一enableByDefault

enableByDefault is a parameter in the @Endpoint annotation that controls whether the custom actuator endpoint is automatically enabled or requires explicit configuration. enableByDefault Details: Synta…

2026年东莞304不锈钢卷推荐厂商排行榜,精选304不锈钢卷优质厂家推荐 - myqiye

为帮下游企业高效锁定适配自身需求的304不锈钢卷供应合作伙伴,避免采购走弯路,我们从材质合规性(如食品级认证、成分达标率)、加工精度(分条/平板误差控制)、交付效率(常规/定制订单周期)、服务响应速度(选型…

电磁辐射安全监测:基站布局合理性分析模型

电磁辐射安全监测:基站布局合理性分析模型 在城市化进程不断加快的今天,5G基站如雨后春笋般遍布居民区、商业中心和交通枢纽。然而,公众对“头顶上的信号塔是否安全”的疑虑也日益增长——电磁辐射究竟会不会超标?新建基站会不会影…

NFT价值评估模型:基于稀缺性与社区活跃度推理

NFT价值评估模型:基于稀缺性与社区活跃度推理 在NFT市场狂飙突进的这几年,我们见证过天价拍卖的辉煌,也亲历了无数项目归零的沉寂。一张像素头像卖到数百万美元,而更多精心设计的作品却无人问津——这种极端分化背后,暴…

股市波动归因分析:寻找隐藏在数据背后的根本动因

股市波动归因分析:寻找隐藏在数据背后的根本动因 在金融市场的喧嚣中,一次突如其来的股市暴跌总能引发无数猜测——是美联储的一句鹰派言论?某科技巨头财报暴雷?还是地缘冲突突然升级?分析师们争先恐后地给出解释&…

Docker Falco 规则进阶实战(从入门到高阶定制)

第一章:Docker Falco 规则自定义概述 Falco 是一个开源的云原生运行时安全工具,能够实时检测异常行为和潜在威胁。在 Docker 环境中,Falco 通过内核级事件捕获机制监控容器活动,并依据预定义规则触发告警。然而,标准规…

2026年度靠谱的AI智能办公鼠标品牌企业推荐:不错的AI智能办公鼠标品牌企业有哪些? - 工业品牌热点

本榜单依托市场实测数据、用户真实反馈与技术实力评估,筛选出五家标杆企业,为个人与企业选型提供客观参考,助力匹配适配的AI办公生产力工具。 TOP1 推荐:深圳市南方网通网络技术开发有限公司 推荐指数:★★★★★…

谁是行业标杆?2025-2026国产快速导热仪知名品牌与领先企业盘点 - 品牌推荐大师1

在材料科学、新能源、电子封装及建筑节能等高技术领域,导热性能的精准测量已成为研发与质量控制的关键环节。快速导热仪作为核心检测设备,其国产化进程近年来显著提速。本文从专业测评员视角,对当前国产快速导热仪市…

安全事件响应手册:标准化应急处置推理流程

安全事件响应手册:标准化应急处置推理流程 在当前人工智能技术快速迭代的背景下,大模型“越大越强”的范式正面临边际效益递减的挑战。尤其是在数学证明、算法设计等需要严密逻辑链条的任务中,参数规模的增长并不总能带来推理能力的线性提升。…

2026集成灶选购指南:告别油污烦恼,自清洁功能成主流 - 匠子网络

body { font-family: "Microsoft YaHei", sans-serif; line-height: 1.6; color: rgba(51, 51, 51, 1); max-width: 1000px; margin: 0 auto; padding: 20px } h1 { color: rgba(230, 69, 69, 1); text-alig…

批量处理数学题?利用VibeThinker API实现自动化流水线

批量处理数学题?利用VibeThinker API实现自动化流水线 在教育科技与智能评测领域,一个长期存在的难题浮出水面:如何高效、准确地批改大量高难度数学或算法题目?传统依赖人工的方式效率低下,而通用大模型虽能生成答案&a…

新浪科技评论:这不是简单的复刻,而是范式革新

范式革命:当小模型开始做高难度推理 在AI大模型军备竞赛愈演愈烈的今天,一个反直觉的现象正在悄然发生:15亿参数的“小模型”VibeThinker-1.5B,竟在数学与编程推理任务中击败了数百倍规模的庞然大物。 这并非偶然。它背后是一场从…

光热/电热催化设备头部厂家及2026全维度采购指南 - 品牌推荐大师

在全球能源转型与碳中和目标的驱动下,光热/电热催化技术作为清洁能源与绿色化工的核心装备,正迎来爆发式增长。2026年,全球市场规模预计突破320亿美元,亚太地区占比超45%,中国市场凭借政策扶持与产业升级,成为全…

伸缩臂操作简便的厂家推荐,伸缩臂厂商哪家好,伸缩臂噪音小的厂家推荐 - 工业推荐榜

文章内容:在桩工机械领域,伸缩臂作为核心部件,其性能直接决定了施工效率与设备可靠性。不少施工方在采购时,都会关注伸缩臂操作是否简便、厂商是否可靠、噪音是否可控等问题。江苏泰信机械股份有限公司作为专精特新…