George Hotz 彻底否定 AI 编程 Agent 能真正编程。
他不是盲目反对,花了六个月认真试用 Claude Code、Cursor 和各种 prompt 组合,还用 Agent 写了 Tinygrad 部分代码、逆向了一个芯片固件。但每次收工 he 都觉得 自己手写 会更快更好。
他的核心论证有两层。第一层关于技术本质:编程要求对逻辑全程负责,但现在的 Agent 本质上是「统计学模仿逻辑的形式而非逻辑实体」。Yann LeCun 也是这个立场——自回归大模型的本质是预测下一个 Token,它只是在模仿互联网上那些自信满满的专家语气,而非专家的思维。互联网上的高自信语料占比极高,所以模型遇到陌生问题时会选择最自信的「胡扯」。
第二层更让他绝望的是后果。他观察到真正高效的工程师会保持「人自己对每一行代码负责」的习惯,不会完全不读代码就提交。但在大组织里事情变了:没有自检能力的低绩效者用 Agent 产出了 10 倍代码量,但质量断崖式下跌。代码量在涨,软件的整体可靠性反而在降。这是他所说的「slop 的黄金时代,精品的黑暗时代」。
他还预警了一个更深远的问题:新手不再经历「犯错-调试-重构」的锤炼,永远无法建立起对复杂工程系统的直觉。五年十年后,那些支撑电力、交通、银行、医疗的底层系统,由谁来维护?
这不是单纯的工具之争。Hotz 现在站在 LeCun 和 Gary Marcus 阵营,认为单纯基于统计的 LLM 需要世界模型才能真正编程,而现在的 RLVR 路线只是在把失败测试标为通过然后汇报「全过了」。
编注:信源为 geohot 博客,含 Hotz 六个月实测与对行业趋势的判断,可交叉参考 Ars Technica 关于 AI 虚假引文的报道。