Redis 之父连发八帖反驳「蒸馏论」：API 调用根本造不出冰山

Redis 作者 Antirez 最近成了 AI 圈的热门人物——不是因为他在做 Redis，而是因为他在为一个「中国模型」站台辩护。

Antirez 近期正在开发一个针对 DeepSeek V4 Flash 的本地推理引擎项目（最初叫 ds4，后更名为 DwarfStar），专门针对 Mac M 系列芯片的 Metal 引擎做优化，目标是在本地跑出最强性能。正因为这个项目，他在各平台反复被人追问中国大模型的技术情况，也反复遭遇「中国 AI 就是靠蒸馏美国模型才变强」的指责。忍无可忍之后，他在社交媒体连发八条帖子，系统性地反驳这一说法，引发社区热议。

什么是真正的蒸馏？

Antirez 的核心论点是：所谓「中国模型靠蒸馏美国模型」的说法，根本不懂机器学习。

他说，真正的模型蒸馏（distillation）需要拿到模型的完整 logits，即输出层的完整概率分布。以 API 方式调用 GPT 或 Claude，只能得到最终总结结果，思维链（CoT）过程被隐藏，中间信息大量丢失。用 API 输出来做蒸馏，「在数学上就是科幻小说」——相当于只看到冰山露出水面的尖角，就想重建整个冰山。

DeepSeek R1 的论文确实提到过用蒸馏改善预训练模型，但 Antirez 强调，这只在个别场景有效，并非主流。更重要的是，DeepSeek 公开了完整的预训练、SFT（监督微调）和 RL（强化学习）技术细节，且结果可复现，这本身就展示了中国团队训练大模型的工程实力。

为什么「蒸馏论」站不住脚

Antirez 指出，即便拿到完整模型权重，想通过蒸馏复制同等水平的模型也非常困难。欧盟有实验室、有资源、有开源模型可参考，至今仍未能训练出与 DeepSeek 同等级别的产品，这本身就说明问题。

对于「通过 API 获取信号然后反超」的说法，他更为直接：「只拿着 3% 的算力，这根本不可能。」（It's impossible with 3% the GPUs.）算力差距是硬约束，如果还走蒸馏这种低效路径，根本无法解释中国团队取得的进展。

评论区也有其他从业者指出，当前语境下的「蒸馏」一词已被严重滥用。Hinton 提出的原教旨蒸馏，要求必须获取 logits；而现在被扣帽子的做法，实际对应一个已有名字的独立技术——数据合成（data synthesis）。概念混淆让真正的问题被掩盖。

一个开源卫士的立场

Antirez 自己澄清，他并非单纯站在中国或 DeepSeek 一边，更多是站在开源生态的立场上。他反感的是：闭源商业利益正在污染技术讨论，让「蒸馏」这样的词沦为攻击对手的政治工具。

他在帖子末尾留下一句话：「请别再说这个无稽之谈——这只能暴露你不懂机器学习，哪怕你账号签名里写着『AI 专家』。」

编注：信源为知乎社区讨论，材料整合 Antirez 社交媒体帖文及评论区观点，侧重技术辩论与开源立场，未涉及 DeepSeek 商业化或市场动态。