AI基础设施里，CPU架构之争为何靠GPU越近越无意义

芯片指令集架构（ISA）之争，在AI数据中心正在变得无关紧要。

为什么ISA突然不重要了

ISA是CPU的"语言"——软件编译成这套指令，芯片才能跑起来。数十年来x86是服务器默认选择，但Arm正在云端快速崛起：AWS的Graviton、Google的Axion、微软的Cobalt已经在AI基础设施里大规模部署。

有趣的问题不是哪种ISA"更好"，而是AI基础设施里各个位置的软件，是否真的在乎CPU用的是哪套指令？换句话说，ISA在哪个环节形成了真正的护城河？

答案是：越靠近GPU，ISA越不重要。

紧贴GPU的两类主机

协同主机（coherent host）是距离GPU最近、带宽最高的插槽，价值也最高。它的护城河是通向GPU的高速互联链路，而非CPU本身用哪套指令。Nvidia的Grace CPU通过NVLink-C2C与Blackwell GPU共享地址空间，带宽达900 GB/s；AMD的Infinity Fabric把EPYC连接到Instinct MI455X，原理类似。谁能提供这条链路，谁就占据了这个位置——跟CPU是x86还是Arm毫无关系。

这解释了为什么Nvidia自行研发了Grace系列处理器（基于Arm架构），而AMD的ROCm平台天然围绕EPYC（x86）构建：ISA只是他们各自加速平台选择的副产品。

现在Nvidia又推出NVLink Fusion，允许第三方CPU接入同一条高速互联链路——合作伙伴包括Intel（x86）、Qualcomm（Arm）、SiFive（RISC-V）。如果这些产品最终量产，协同主机将成为真正"与ISA无关"的插槽。

标准主机的职责是"喂饱"GPU：分词、批处理请求、管理PCIe数据传输。这类工作对ISA同样不敏感。AWS用Graviton（Arm）配合Trainium，Google用Axion（Arm）配合自研TPU——超大规模厂商已经在向Arm迁移。

唯一例外是企业和小规模部署场景：同一台服务器既要喂GPU、又要跑应用层工作负载，传统x86软件生态的惯性让ISA重新变得重要。这个细分市场会增长，但体量远小于超大规模厂商的AI集群。

结论

x86的锁定效应是真实存在的，但它最强的地方恰恰是离AI核心（GPU）最远的地方——应用层和传统云工作负载。而在AI基础设施争夺最激烈的战场，也就是紧贴GPU的主机端，ISA正在变成一个可以互换的变量，而非护城河。

编注：材料来自芯片行业分析博客chipstrat，侧重从系统架构视角拆解AI服务器各插槽的ISA相关性，未涉及具体性能基准测试数据。