YOLO26发布:下一代视觉模型来了!

Datawhale干货

最新:Ultralytics YOLO26

昨天,Ultralytics 正式发布 YOLO26,这是迄今为止最先进、同时也是最易于部署的 YOLO 模型。YOLO26 最早在 YOLO Vision 2025(YV25)大会上首次亮相,它标志着计算机视觉模型在真实世界系统中的训练方式、部署方式以及规模化路径发生了根本性的转变。

视觉 AI 正迅速向边缘端迁移。如今,图像和视频越来越多地直接在设备、摄像头、机器人和嵌入式系统上进行处理,在这些场景中,延迟、可靠性和成本比原始云计算能力更为重要。YOLO26 正是为这一现实场景量身打造,能够在 CPU、边缘加速器和低功耗硬件上高效运行的同时,还能提供业界领先的性能

尽管 YOLO26 实现了跨越式升级,但它依然延续了 Ultralytics YOLO 一贯简洁易用的特性。模型能够无缝融入现有工作流程,支持多种视觉任务,且操作简便,无论是研究团队还是生产团队都能轻松上手

YOLO26 使用地址:https://pse.is/8lgx94
图 1:Ultralytics YOLO26 的目标检测应用示例

本文将详细拆解 Ultralytics YOLO26 的核心信息,以及这款更轻量化、更小体积、更快速度的 YOLO 模型对视觉 AI 未来发展的意义。

Ultralytics YOLO26:树立视觉 AI 新标杆

Ultralytics YOLO26 的核心设计理念是:让真正具备实用价值的视觉 AI 技术触手可及,惠及每一个人。我们始终认为,强大的计算机视觉工具不应只掌握在少数组织手中。

在伦敦举办的 YV25 大会上,公司创始人兼首席执行官 Glenn Jocher 分享了这一愿景:“最顶尖的 AI 技术往往被束之高阁,并未对外开放。大型企业掌控着新技术的发展,其他人只能排队等待使用权限。Ultralytics 选择了一条不同的道路,我们希望 AI 能真正掌握在每个人手中。”

他进一步解释,这意味着要将 AI 从云端带到真实世界中:“我们希望这项技术不再只停留在云端,而是下沉到边缘设备、你的手机、车辆以及低功耗系统中。我们也希望那些致力于创造解决方案的优秀开发者们能够获得这样的技术支持。”

YOLO26 的设计正是这一愿景的实践:它专为视觉 AI 的实际部署场景而生,而非只适合原型验证的方案。

Ultralytics YOLO26 的核心优势

与此前的 Ultralytics YOLO 系列一样,YOLO26 依然采用统一的模型家族设计,能够支持多种计算机视觉任务。模型提供五种尺寸选择:Nano(n)、Small(s)、Medium(m)、Large(l)和 Extra Large(x),团队可以根据部署环境,在速度、精度和模型体量之间进行灵活取舍。

在性能层面,YOLO26 进一步提升了性能上限。与 YOLO11 相比,YOLO26 的 Nano 版本在 CPU 推理场景下最高可实现 43% 的性能提升,成为目前边缘端和基于 CPU 部署场景中速度与精度兼顾的领先目标检测模型之一。

图 2. 顶尖视觉模型 Ultralytics YOLO26

YOLO26 支持的计算机视觉任务包括:

  • 图像分类:对整张图像进行分析,并归类到指定类别,帮助系统理解场景整体语义。

  • 目标检测:在图像或视频中定位并识别多个目标。

  • 实例分割:能以像素级精度勾勒单个物体轮廓。

  • 姿态估计:识别关键点并估计人体或其他对象的姿态。

  • 旋转框(OBB)检测:支持不同角度目标检测,适用于航拍和卫星影像。

  • 目标跟踪:结合 Ultralytics Python 包,可在视频流中持续跟踪目标。

所有任务在同一框架下支持训练、验证、推理与模型导出。

Ultralytics YOLO26 的关键创新

Ultralytics YOLO26 引入了多项核心创新,全面提升了推理速度、训练稳定性和部署便捷性,主要包括:

  • 移除分布焦点损失(DFL):删除了 DFL 模块,简化了边界框预测过程,提升了硬件兼容性,让模型更易于导出并在边缘设备和低功耗硬件上运行。

  • 端到端无 NMS 推理:YOLO26 原生支持端到端推理,可直接输出最终预测结果,无需依赖非极大值抑制(NMS),减少了推理延迟和部署复杂度。

  • 渐进式损失平衡(ProgLoss)+ 小目标感知标签分配(STAL):这些优化的损失策略稳定了训练过程,提升了检测精度,尤其针对难以检测的小目标。

  • MuSGD 优化器:采用全新混合优化器,融合了 SGD 与 Muon 的优化方法,模型训练更加稳定。

  • CPU 推理速度提升高达 43%:专为边缘计算优化,YOLO26 的 CPU 推理速度提升高达 43%,可在边缘设备上实现实时性能。

接下来,我们将详细拆解这些下一代特性。

移除分布焦点损失(DFL),简化预测流程

早期 YOLO 模型在训练过程中使用分布焦点损失(DFL)来提升边界框精度。尽管这一方法有效,但 DFL 增加了模型复杂度,且对回归范围设置了固定限制,给模型导出和部署带来挑战,尤其在边缘设备和低功耗硬件上表现更为明显。

YOLO26 完全移除了 DFL 模块。这一改动消除了早期模型中固定的边界框回归限制,提升了检测超大物体时的可靠性和准确性。

通过简化边界框预测流程,YOLO26 更易于导出,且能在各类边缘设备和低功耗硬件上稳定运行。

端到端无 NMS 推理

传统目标检测流程依赖非极大值抑制(NMS)作为后处理步骤,用于过滤重叠预测结果。尽管 NMS 效果显著,但它会增加延迟和复杂度,且在多运行时环境和不同硬件目标上部署时容易出现不稳定问题。

YOLO26 引入原生端到端推理模式,模型可直接输出最终预测结果,无需将 NMS 作为独立的后处理步骤。重复预测的过滤的操作在网络内部完成。

移除 NMS 不仅降低了延迟,简化了部署流程,还减少了集成错误的风险,使 YOLO26 特别适合实时部署和边缘部署场景。

渐进式损失平衡(ProgLoss)+ 小目标感知标签分配(STAL),提升识别能力

训练相关的关键特性是引入了渐进式损失平衡(ProgLoss)和小目标感知标签分配(STAL)。这些优化的损失函数有助于稳定训练过程,提升检测精度。

ProgLoss 让模型在训练过程中学习更稳定,减少了训练波动,使模型收敛更平稳。同时,STAL 则针对小目标进行了优化,改善模型在视觉信息有限情况下的学习效果。

ProgLoss 和 STAL 的结合实现了更可靠的检测效果,尤其在小目标识别方面有显著提升。这一点对于物联网(IoT)、机器人技术和航空影像等边缘应用至关重要,因为在这些场景中,物体往往体积小、距离远或部分可见。

MuSGD 优化器,实现更稳定的训练

YOLO26 采用了一种新的优化器 MuSGD,用于提升训练的稳定性和效率。MuSGD 将传统随机梯度下降(SGD)的优势,与源自大语言模型训练的 Muon 类优化思想相结合。

SGD 在计算机视觉领域长期被证明具有良好的泛化能力,而近年的大模型训练经验也表明,适当引入新的优化策略可以进一步提升稳定性和效率。MuSGD 将这些理念引入了计算机视觉领域。

受 Moonshot AI 的 Kimi K2 训练经验启发,MuSGD 融入了有助于模型更平稳收敛的优化策略。这使得 YOLO26 能够更快地达到出色性能,同时减少训练不稳定性,尤其在更大规模或更复杂的训练场景中效果显著。

MuSGD 让 YOLO26 在不同模型尺寸下的训练都更具可预测性,既提升了性能,又增强了训练稳定性。

CPU 推理速度提升高达 43%

随着 Vision AI 不断向数据产生端靠近,边缘性能的重要性持续提升。YOLO26 针对边缘计算场景进行了深度优化,在无 GPU 的条件下,CPU 推理速度最高提升可达 43%。

这一能力使实时视觉系统能够直接运行在摄像头、机器人和嵌入式硬件上,满足低延迟、高可靠性和成本受限的实际需求。

对视觉任务进一步优化

除了提升目标检测精度的架构改进外,YOLO26 还包含针对特定任务的优化,旨在全面提升各类计算机视觉任务的性能。

  • 实例分割:YOLO26 使用语义分割损失改进模型的训练学习过程,从而生成更准确、更一致的实例掩码。升级后的原型模块支持利用多尺度信息,使模型在复杂场景中也能有效处理不同尺寸的物体。

  • 姿态估计:集成 Residual Log-Likelihood Estimation(RLE),更好地建模关键点预测的不确定性,同时优化解码流程,实现更高精度与实时性。

  • 旋转边界框检测:新增角度损失函数,帮助模型更准确地学习物体旋转角度,尤其适用于方向模糊的方形物体。优化后的 OBB 解码过程减少了旋转边界附近角度预测的突变,实现了更稳定、一致的方向估计。

图 3. Ultralytics YOLO26 的实例分割应用示例

Ultralytics YOLOE-26:基于 YOLO26 的开放词汇分割模型

Ultralytics 同时推出了 YOLOE-26:一个基于 YOLO26 架构和训练策略的开放词汇分割模型系列。

YOLOE-26 并非全新任务或功能,而是一个专用模型家族,它复用了现有的分割任务,同时支持文本提示、视觉提示和无提示推理。该模型家族涵盖所有标准 YOLO 尺寸,相比早期开放词汇分割模型,YOLOE-26 的精度更高,实际应用性能更可靠。

Ultralytics YOLO26:为视觉 AI 的实际运行场景量身打造

从视觉驱动的摄像头,到计算机视觉赋能的机器人,再到边缘端的微型处理芯片,计算机视觉和 AI 正越来越多地部署在设备本地,以实现实时推理。YOLO26 正是为这些对延迟、效率和稳定性要求极高的场景而设计。

在实际应用中,YOLO26 可轻松部署在各类硬件上。具体而言,通过 Ultralytics Python 包及其丰富的集成功能,模型可以导出为针对不同平台和硬件加速器优化的格式。

例如,导出为 TensorRT 格式可在 NVIDIA GPU 上实现高性能推理,CoreML 格式支持苹果设备原生部署,OpenVINO 则能优化英特尔硬件的运行性能。YOLO26 还可导出至多款专用边缘加速器,在专业边缘 AI 硬件上实现高吞吐量、高能效比的推理

以上仅为部分示例,YOLO26 还支持更多边缘环境和生产环境的集成方案。这种灵活性使得单个 YOLO26 模型能够适配多种部署目标,简化了生产工作流程,让视觉 AI 更贴近边缘端应用。

重塑各行业计算机视觉应用场景

YOLO26 专为实际部署设计,可广泛应用于不同行业的各类计算机视觉场景。

  • 机器人领域:可用于导航、障碍物检测和物体交互等任务,为机器人在动态环境中的安全高效运行提供支持。

  • 制造业:在生产线上,YOLO26 能够分析图像和视频,识别缺陷、缺失组件或流程问题。设备本地的数据处理确保了检测速度,减少了对云系统的依赖。

  • 航空和无人机应用:部署在无人机上时,YOLO26 可在飞行过程中处理航空影像,用于检测、测绘和勘测。即使在偏远地区,也能实时分析场景。

  • 嵌入式和物联网系统:凭借轻量化设计,YOLO26 可在低功耗嵌入式硬件上运行,实现本地视觉数据处理。常见应用包括智能摄像头、联网传感器和自动化监控设备。

  • 智慧城市:在城市环境中,YOLO26 能够分析交通摄像头和公共区域摄像头的视频流,支持边缘端的交通监控、公共安全和基础设施管理等应用。

图 4:YOLO26 的典型应用场景

快速上手 Ultralytics YOLO26

YOLO26 提供两种主要使用方式:

方式一:通过 Ultralytics 平台使用 YOLO26(推荐)

Ultralytics 平台提供了集中式的训练、部署和监控方案,可在生产环境中管理 YOLO26 模型。它将数据集、实验和部署流程整合在一起,便于规模化管理视觉 AI 工作流程,尤其适合面向边缘环境和生产环境部署的团队

在平台上,用户可以:

  • 获取 YOLO26 模型

  • 在自定义数据集上进行训练和微调

  • 导出模型用于边缘部署和生产部署

  • 在统一工作流程中监控实验进度和已部署模型

👉前往 Ultralytics 平台探索 YOLO26
https://pse.is/8lgx94

方式二:通过开源工作流使用 YOLO26

YOLO26 仍可通过 Ultralytics 开源生态系统完全访问,支持使用现有的基于 Python 的流程进行训练、推理和导出。

开发者可以安装 Ultralytics 包,加载预训练的 YOLO26 模型,并使用 ONNX、TensorRT、CoreML 或 OpenVINO 等常用工具和格式进行部署。

pip install ultralytics
from ultralytics import YOLO # 加载COCO预训练的YOLO26n模型 model = YOLO("yolo26n.pt") # 使用YOLO26n模型对'bus.jpg'图像进行推理 results = model("path/to/bus.jpg")

完整的使用指南和教程可以在Ultralytics 文档中查看:

https://docs.ultralytics.com/

Ultralytics YOLO26:为下一代计算机视觉而生

Ultralytics YOLO26 旨在满足未来视觉 AI 解决方案的需求,未来的模型需要具备快速、高效的特点,且易于在实际硬件上部署。通过提升性能、简化部署流程并扩展模型功能,YOLO26 自然适配各类实际应用场景,为视觉 AI 的构建、部署和规模化应用树立了新基准。我们期待看到社区基于 YOLO26 构建出更多实用的计算机视觉系统。

想要了解更多 AI 相关内容,欢迎访问我们的社区与 GitHub 仓库:

https://github.com/ultralytics/ultralytics

更多解决方案案例:

https://www.ultralytics.com/solutions/ai-in-manufacturing

Ultralytics 授权方案:

https://www.ultralytics.com/zh/license

关于Ultralytics

我们的使命是以不懈的行动推动人工智能的进步,开创世界一流的开源解决方案。我们希望通过便捷、前沿的技术为个人与企业赋能,让AI改变生活,让价值触手可及。

公司官网:

https://ultralytics.com/about

🚀Ultralytics许可证:

https://www.ultralytics.com/zh/license

🚀Ultralytics YOLO11:

https://docs.ultralytics.com/models/yolo11/


点击阅读原文,探索YOLO26↓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1165956.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qwen3-Embedding-4B快速部署:预装镜像开箱即用

Qwen3-Embedding-4B快速部署:预装镜像开箱即用 1. 引言 随着大模型在检索、分类、聚类等任务中的广泛应用,高质量的文本嵌入服务已成为构建智能系统的核心基础设施。Qwen3-Embedding-4B作为通义千问系列最新推出的中等规模嵌入模型,在性能与…

cv_unet_image-matting如何实现3秒抠图?GPU算力适配深度解析

cv_unet_image-matting如何实现3秒抠图?GPU算力适配深度解析 1. 技术背景与核心挑战 图像抠图(Image Matting)是计算机视觉中的一项关键任务,目标是从原始图像中精确分离前景对象,生成带有透明度通道(Alp…

麦橘超然Web控制台搭建:从环境配置到远程访问完整指南

麦橘超然Web控制台搭建:从环境配置到远程访问完整指南 1. 引言 1.1 项目背景与目标 随着AI图像生成技术的快速发展,本地化、轻量化部署高质量模型的需求日益增长。尤其在显存资源有限的设备上,如何实现高效、稳定的图像生成成为开发者和创…

从零开始学OpenCode:保姆级教程带你玩转AI代码补全

从零开始学OpenCode:保姆级教程带你玩转AI代码补全 1. 引言:为什么你需要一个终端原生的AI编程助手? 在现代软件开发中,效率已成为核心竞争力。传统的IDE插件式AI辅助工具虽然便捷,但往往受限于网络延迟、隐私顾虑和…

亲测有效:Ubuntu 16.04开机自动执行命令的简单方法

亲测有效:Ubuntu 16.04开机自动执行命令的简单方法 1. 引言 1.1 业务场景描述 在实际开发和运维过程中,经常会遇到需要系统在启动时自动执行某些命令的需求。例如,配置网络接口、挂载特定设备、启动自定义服务或运行监控脚本等。手动操作不…

NotaGen快速上手教程|高效生成高质量符号化乐谱

NotaGen快速上手教程|高效生成高质量符号化乐谱 1. 快速开始与环境启动 1.1 系统简介 NotaGen 是一款基于大语言模型(LLM)范式开发的古典音乐生成系统,专注于高质量符号化乐谱的自动化创作。该模型通过深度学习技术对巴洛克、古…

GPEN图片修复快速上手:5分钟搞定老照片清晰化处理

GPEN图片修复快速上手:5分钟搞定老照片清晰化处理 1. 引言 在数字影像日益普及的今天,大量珍贵的老照片因年代久远而出现模糊、噪点、褪色等问题。如何高效、高质量地恢复这些图像的细节,成为许多用户关注的核心需求。GPEN(Gene…

用Qwen3-4B打造智能写作助手:从技术博客到小说创作

用Qwen3-4B打造智能写作助手:从技术博客到小说创作 在生成式AI快速演进的今天,如何构建一个既能撰写专业文章又能创作文学作品的全能型写作助手,已成为内容创作者、开发者和独立工作者关注的核心问题。传统小参数模型(如0.5B&…

如何用Youtu-2B构建AI助手?完整部署实战指南

如何用Youtu-2B构建AI助手?完整部署实战指南 1. 引言 随着大语言模型(LLM)在自然语言理解与生成任务中的广泛应用,轻量化、高性能的模型逐渐成为边缘计算和低资源场景下的首选。Youtu-LLM-2B 作为腾讯优图实验室推出的20亿参数级…

BGE-M3教程:长文本语义相似度分析技巧

BGE-M3教程:长文本语义相似度分析技巧 1. 引言 随着大模型和检索增强生成(RAG)技术的广泛应用,高质量的语义嵌入模型成为构建智能知识系统的基石。在众多开源语义模型中,BAAI/bge-m3 凭借其卓越的多语言支持、长文本…

AI智能文档扫描仪完整指南:输出PDF格式扫描件的操作路径

AI智能文档扫描仪完整指南:输出PDF格式扫描件的操作路径 1. 引言 1.1 学习目标 本文将详细介绍如何使用基于 OpenCV 的 AI 智能文档扫描仪,完成从图像输入到生成标准 PDF 扫描件的全流程操作。读者在阅读后将能够: 理解文档扫描的核心处理…

Qwen2.5-0.5B实战案例:图书馆智能导览系统搭建

Qwen2.5-0.5B实战案例:图书馆智能导览系统搭建 1. 项目背景与需求分析 随着智慧校园建设的不断推进,传统图书馆的服务模式已难以满足师生对高效、便捷信息获取的需求。尤其是在大型高校图书馆中,读者常常面临书目查找困难、区域分布不熟悉、…

零配置运行FSMN-VAD,网页端操作像聊天一样自然

零配置运行FSMN-VAD,网页端操作像聊天一样自然 1. 引言:语音端点检测的工程痛点与新范式 在语音识别、智能对话系统和音频预处理等场景中,语音端点检测(Voice Activity Detection, VAD) 是不可或缺的第一步。传统VAD…

Qwen3-4B-Instruct-2507长文本处理:合同分析实战教程

Qwen3-4B-Instruct-2507长文本处理:合同分析实战教程 1. 引言:为什么选择Qwen3-4B-Instruct-2507进行合同分析? 随着企业数字化进程加速,法律与商务场景中对自动化文档理解的需求日益增长。合同作为典型长文本,往往包…

AI智能证件照制作工坊与其他工具对比:速度精度全面评测

AI智能证件照制作工坊与其他工具对比:速度精度全面评测 1. 选型背景与评测目标 在数字化办公和在线身份认证日益普及的今天,标准证件照已成为简历投递、考试报名、政务办理等场景中的刚需。传统方式依赖照相馆拍摄或手动使用Photoshop处理,…

AI读脸术调优实战:提升年龄段预测精度的参数详解

AI读脸术调优实战:提升年龄段预测精度的参数详解 1. 引言:AI读脸术与人脸属性分析的应用价值 随着计算机视觉技术的快速发展,人脸属性分析已成为智能安防、用户画像、广告推荐和人机交互等场景中的关键技术。其中,年龄与性别识别…

阿里通义Z-Image-Turbo图像生成模型使用全解析:参数详解+实操手册

阿里通义Z-Image-Turbo图像生成模型使用全解析:参数详解实操手册 1. 引言 随着AI图像生成技术的快速发展,高效、高质量的文生图模型成为内容创作、设计辅助和智能应用开发的重要工具。阿里通义实验室推出的 Z-Image-Turbo 模型,凭借其快速推…

GPT-OSS-20B艺术创作:诗歌生成实战部署案例

GPT-OSS-20B艺术创作:诗歌生成实战部署案例 1. 引言 随着大语言模型在创意领域的深入应用,AI辅助艺术创作正逐步从概念走向落地。GPT-OSS-20B作为OpenAI开源的中大规模语言模型,在文本生成、语义理解与风格迁移方面展现出卓越能力&#xff…

图片旋转判断模型优化秘籍:让处理速度提升3倍的技巧

图片旋转判断模型优化秘籍:让处理速度提升3倍的技巧 在图像处理和文档识别领域,图片旋转判断是一个常见但关键的任务。当用户上传一张图片时,系统需要自动识别其方向(0、90、180、270),并进行校正&#xf…

红外循迹模块与智能小车PCB板原理图集成方案

红外循迹模块与智能小车PCB集成设计实战指南你有没有遇到过这种情况:明明代码逻辑没问题,小车却总是在黑线边缘疯狂“抽搐”?或者刚上电还能走直线,跑着跑着就一头扎进墙角再也出不来?别急——问题很可能不在程序里&am…