Ultralytics 发布 YOLO26:取消 NMS、移除 DFL 的统一实时视觉模型

Ultralytics 发布 YOLO26:取消 NMS、移除 DFL 的统一实时视觉模型

_

Ultralytics 团队在 arXiv 发布 YOLO26,宣称这是一套「统一」的实时端到端视觉模型家族,一次训练就能同时完成目标检测、实例分割、姿态估计、图像分类和旋转目标检测五类任务,还能通过开放词汇扩展 YOLOE-26 用文本提示做零样本识别。

为什么需要 YOLO26

此前多数 YOLO 模型依赖非极大值抑制(NMS)做后处理、头部因 Distribution Focal Loss(DFL)而偏重、训练周期长,且小目标容易被漏掉正向标签分配。Ultralytics 认为这些是实时部署的瓶颈——NMS 增加了推理延迟,DFL 限制了回归范围,头部过重影响效率。

架构与训练革新

YOLO26 用双头部设计实现原生无 NMS 端到端推理,并完全移除了 DFL,声称头部更轻、回归范围不受限。训练端引入了三项改进:MuSGD 是从大语言模型训练借鉴的 Muon-SGD 混合优化器;Progressive Loss 将监督信号逐步导向推理时使用的那颗头部;STAL 标签分配策略则保证小目标至少获得一个正向标签。

性能表现

在 COCO 数据集上,五个规模(n/s/m/l/x)的 YOLO26 达到 40.9~57.5 mAP,T4 TensorRT 延迟为 1.7~11.8 毫秒。开放词汇版本 YOLOE-26x 在 LVIS minival 的文本提示下取得 40.6 AP。官方称该系列在精度-延迟 Pareto 前沿上超越了此前的实时检测模型。

编注:信源为 arXiv 论文摘要(经 Hacker News 转载),侧重架构设计与基准数据,未涉及实际部署案例或与同类开源模型的对比评测。


30亿参数模型挑战千亿旗舰:可验证推理能力的新突破 2026-06-23
CPU算力复兴:智能体时代如何撬动英伟达奶酪 2026-06-23