Ultralytics 发布 YOLO26：取消 NMS、移除 DFL 的统一实时视觉模型

Ultralytics 团队在 arXiv 发布 YOLO26，宣称这是一套「统一」的实时端到端视觉模型家族，一次训练就能同时完成目标检测、实例分割、姿态估计、图像分类和旋转目标检测五类任务，还能通过开放词汇扩展 YOLOE-26 用文本提示做零样本识别。

为什么需要 YOLO26

此前多数 YOLO 模型依赖非极大值抑制（NMS）做后处理、头部因 Distribution Focal Loss（DFL）而偏重、训练周期长，且小目标容易被漏掉正向标签分配。Ultralytics 认为这些是实时部署的瓶颈——NMS 增加了推理延迟，DFL 限制了回归范围，头部过重影响效率。

架构与训练革新

YOLO26 用双头部设计实现原生无 NMS 端到端推理，并完全移除了 DFL，声称头部更轻、回归范围不受限。训练端引入了三项改进：MuSGD 是从大语言模型训练借鉴的 Muon-SGD 混合优化器；Progressive Loss 将监督信号逐步导向推理时使用的那颗头部；STAL 标签分配策略则保证小目标至少获得一个正向标签。

性能表现

在 COCO 数据集上，五个规模（n/s/m/l/x）的 YOLO26 达到 40.9～57.5 mAP，T4 TensorRT 延迟为 1.7～11.8 毫秒。开放词汇版本 YOLOE-26x 在 LVIS minival 的文本提示下取得 40.6 AP。官方称该系列在精度-延迟 Pareto 前沿上超越了此前的实时检测模型。

编注：信源为 arXiv 论文摘要（经 Hacker News 转载），侧重架构设计与基准数据，未涉及实际部署案例或与同类开源模型的对比评测。