Redis 作者 Antirez 最近成了 AI 圈的热门人物——不是因为他在做 Redis,而是因为他在为一个「中国模型」站台辩护。
Antirez 近期正在开发一个针对 DeepSeek V4 Flash 的本地推理引擎项目(最初叫 ds4,后更名为 DwarfStar),专门针对 Mac M 系列芯片的 Metal 引擎做优化,目标是在本地跑出最强性能。正因为这个项目,他在各平台反复被人追问中国大模型的技术情况,也反复遭遇「中国 AI 就是靠蒸馏美国模型才变强」的指责。忍无可忍之后,他在社交媒体连发八条帖子,系统性地反驳这一说法,引发社区热议。
什么是真正的蒸馏?
Antirez 的核心论点是:所谓「中国模型靠蒸馏美国模型」的说法,根本不懂机器学习。
他说,真正的模型蒸馏(distillation)需要拿到模型的完整 logits,即输出层的完整概率分布。以 API 方式调用 GPT 或 Claude,只能得到最终总结结果,思维链(CoT)过程被隐藏,中间信息大量丢失。用 API 输出来做蒸馏,「在数学上就是科幻小说」——相当于只看到冰山露出水面的尖角,就想重建整个冰山。
DeepSeek R1 的论文确实提到过用蒸馏改善预训练模型,但 Antirez 强调,这只在个别场景有效,并非主流。更重要的是,DeepSeek 公开了完整的预训练、SFT(监督微调)和 RL(强化学习)技术细节,且结果可复现,这本身就展示了中国团队训练大模型的工程实力。
为什么「蒸馏论」站不住脚
Antirez 指出,即便拿到完整模型权重,想通过蒸馏复制同等水平的模型也非常困难。欧盟有实验室、有资源、有开源模型可参考,至今仍未能训练出与 DeepSeek 同等级别的产品,这本身就说明问题。
对于「通过 API 获取信号然后反超」的说法,他更为直接:「只拿着 3% 的算力,这根本不可能。」(It's impossible with 3% the GPUs.)算力差距是硬约束,如果还走蒸馏这种低效路径,根本无法解释中国团队取得的进展。
评论区也有其他从业者指出,当前语境下的「蒸馏」一词已被严重滥用。Hinton 提出的原教旨蒸馏,要求必须获取 logits;而现在被扣帽子的做法,实际对应一个已有名字的独立技术——数据合成(data synthesis)。概念混淆让真正的问题被掩盖。
一个开源卫士的立场
Antirez 自己澄清,他并非单纯站在中国或 DeepSeek 一边,更多是站在开源生态的立场上。他反感的是:闭源商业利益正在污染技术讨论,让「蒸馏」这样的词沦为攻击对手的政治工具。
他在帖子末尾留下一句话:「请别再说这个无稽之谈——这只能暴露你不懂机器学习,哪怕你账号签名里写着『AI 专家』。」
编注:信源为知乎社区讨论,材料整合 Antirez 社交媒体帖文及评论区观点,侧重技术辩论与开源立场,未涉及 DeepSeek 商业化或市场动态。