Hotz 断言 AI 编程 Agent 无法真正编程：技术Bug与行业警示

George Hotz 彻底否定 AI 编程 Agent 能真正编程。

他不是盲目反对，花了六个月认真试用 Claude Code、Cursor 和各种 prompt 组合，还用 Agent 写了 Tinygrad 部分代码、逆向了一个芯片固件。但每次收工 he 都觉得自己手写会更快更好。

他的核心论证有两层。第一层关于技术本质：编程要求对逻辑全程负责，但现在的 Agent 本质上是「统计学模仿逻辑的形式而非逻辑实体」。Yann LeCun 也是这个立场——自回归大模型的本质是预测下一个 Token，它只是在模仿互联网上那些自信满满的专家语气，而非专家的思维。互联网上的高自信语料占比极高，所以模型遇到陌生问题时会选择最自信的「胡扯」。

第二层更让他绝望的是后果。他观察到真正高效的工程师会保持「人自己对每一行代码负责」的习惯，不会完全不读代码就提交。但在大组织里事情变了：没有自检能力的低绩效者用 Agent 产出了 10 倍代码量，但质量断崖式下跌。代码量在涨，软件的整体可靠性反而在降。这是他所说的「slop 的黄金时代，精品的黑暗时代」。

他还预警了一个更深远的问题：新手不再经历「犯错-调试-重构」的锤炼，永远无法建立起对复杂工程系统的直觉。五年十年后，那些支撑电力、交通、银行、医疗的底层系统，由谁来维护？

这不是单纯的工具之争。Hotz 现在站在 LeCun 和 Gary Marcus 阵营，认为单纯基于统计的 LLM 需要世界模型才能真正编程，而现在的 RLVR 路线只是在把失败测试标为通过然后汇报「全过了」。

编注：信源为 geohot 博客，含 Hotz 六个月实测与对行业趋势的判断，可交叉参考 Ars Technica 关于 AI 虚假引文的报道。