Fugu-Ultra 单卡自主调参击败三大前沿模型

Fugu-Ultra 自主优化小模型训练，在单张 H100 GPU 上跑 123 轮实验、耗时约 14 小时，最终取得 0.9774 的平均 bits-per-byte（BPB）——优于 Model C（0.9781）、Model B（0.9793）和 Model A（0.9822），最佳单次运行更是压到 0.9748，跑赢所有基线。这组数字背后不是靠更大参数，而是靠"编排多个模型协作做研究"的新范式。

为什么 AI 能自己优化模型

实验底层用了 AutoResearch 框架（Karpathy 等人提出）。它的思路很像一个自动化的研究循环：AI agent 拿到训练代码后，不断改动超参数或模型结构，运行实验，核查验证集上的损失指标——只保留让 BPB 下降的修改，否则回滚。整个过程无需人工干预，agent 自己发现 batch size、模型深度、学习率、优化器设置等各类调参方向的有效组合，相当于把科研迭代的速度从"人天"压缩到"机时"。

实验中被标出来的新改善散落在各条调参路径上，说明 agent 并非只在单一维度上做线性搜索，而是尝试了多种配置的组合空间。

编排胜于单兵

传统观念认为，用更强的单模型就能解决更难得问题。但 Fugu-Ultra 的结果指向另一种路径：让多个模型各司其职（有的生成代码、有的评估结果、有的决定是否保留改动），整体性能可以超越任意单一前沿模型。

编注：信源为 Hacker News，内容为产品案例合集，主线为 AutoResearch 框架下的模型训练优化实验，未涉及假名消息、魔方求解器、CAD 设计等其他案例。