YOLO26发布:CPU推理快43%的端到端视觉模型

YOLO26发布:CPU推理快43%的端到端视觉模型

_

YOLO26 是 Ultralytics 于 2026 年 1 月发布的端到端多任务视觉模型家族,一款模型同时支持目标检测、实例分割、姿态估计、定向目标检测和图像分类五项核心任务,提供 Nano 到 Extra Large 五档体量。相比前代 YOLO11-N,YOLO26-N 的 CPU 推理速度最高提升 43%,这在边缘部署场景中是非常显著的性能增益。

架构改进与边缘优化

YOLO26 在架构上做了三处关键手术。首先,移除了后处理环节的 Non-Maximum Suppression(NMS),推理链路从传统的「模型输出→NMS过滤」简化为直接端到端输出,延迟因此下降,更适合实时系统。其次,删除了 Distribution Focal Loss(DFL)模块,降低了模型复杂度,也扫清了部署到边缘设备的障碍——TFLite、CoreML、OpenVINO、TensorRT、ONNX 等常见端侧推理框架均可直接导入。第三,引入了 ProgLoss 与 STAL 两套损失函数组合,尤其提升了对小目标的识别精度,对 IoT 传感器、机器人和航拍影像等场景尤为有利。

训练层面,YOLO26 启用了 MuSGD 优化器,这一混合方案借鉴了大语言模型 Kimi K2 的优化思路,将 SGD 与 Muon 各自优势结合,加速收敛的同时保持训练稳定性。模型在 fp16 与 fp32 精度下的表现保持一致,意味着用户无需在精度与速度之间做痛苦的取舍。

部署选择与竞品对照

在边缘场景下,YOLO26 的 CPU 推理速度优势明显,尤其适合没有独立 GPU 的嵌入式设备。同期竞争者中,RF-DETR(Roboflow 2025年3月发布)在多项基准测试中整体精度略优,LW-DETR(2024年6月)则在 ViT 架构加持下兼顾精度与速度,D-FINE(2024年10月)以细粒度边界框优化在小目标重叠场景见长。YOLO26 的差异化定位更偏向「低门槛、易部署、低延迟」这条路线。

Ultralytics 官方未发布 YOLO26 论文,康奈尔大学与堪萨斯州立大学联合撰写了一篇架构分析与基准测试论文可供参考。

编注:信源为Roboflow官方博客,内容覆盖架构解析、COCO基准与竞品对照,官方未发布论文,第三方论文由康奈尔与堪萨斯州立大学合著。


Redis 被当数据库用才是真正的坑,系统管理员为什么改推 memcached 2026-06-23
30亿参数模型挑战千亿旗舰:可验证推理能力的新突破 2026-06-23