芯片指令集架构(ISA)之争,在AI数据中心正在变得无关紧要。
为什么ISA突然不重要了
ISA是CPU的"语言"——软件编译成这套指令,芯片才能跑起来。数十年来x86是服务器默认选择,但Arm正在云端快速崛起:AWS的Graviton、Google的Axion、微软的Cobalt已经在AI基础设施里大规模部署。
有趣的问题不是哪种ISA"更好",而是AI基础设施里各个位置的软件,是否真的在乎CPU用的是哪套指令?换句话说,ISA在哪个环节形成了真正的护城河?
答案是:越靠近GPU,ISA越不重要。
紧贴GPU的两类主机
协同主机(coherent host)是距离GPU最近、带宽最高的插槽,价值也最高。它的护城河是通向GPU的高速互联链路,而非CPU本身用哪套指令。Nvidia的Grace CPU通过NVLink-C2C与Blackwell GPU共享地址空间,带宽达900 GB/s;AMD的Infinity Fabric把EPYC连接到Instinct MI455X,原理类似。谁能提供这条链路,谁就占据了这个位置——跟CPU是x86还是Arm毫无关系。
这解释了为什么Nvidia自行研发了Grace系列处理器(基于Arm架构),而AMD的ROCm平台天然围绕EPYC(x86)构建:ISA只是他们各自加速平台选择的副产品。
现在Nvidia又推出NVLink Fusion,允许第三方CPU接入同一条高速互联链路——合作伙伴包括Intel(x86)、Qualcomm(Arm)、SiFive(RISC-V)。如果这些产品最终量产,协同主机将成为真正"与ISA无关"的插槽。
标准主机的职责是"喂饱"GPU:分词、批处理请求、管理PCIe数据传输。这类工作对ISA同样不敏感。AWS用Graviton(Arm)配合Trainium,Google用Axion(Arm)配合自研TPU——超大规模厂商已经在向Arm迁移。
唯一例外是企业和小规模部署场景:同一台服务器既要喂GPU、又要跑应用层工作负载,传统x86软件生态的惯性让ISA重新变得重要。这个细分市场会增长,但体量远小于超大规模厂商的AI集群。
结论
x86的锁定效应是真实存在的,但它最强的地方恰恰是离AI核心(GPU)最远的地方——应用层和传统云工作负载。而在AI基础设施争夺最激烈的战场,也就是紧贴GPU的主机端,ISA正在变成一个可以互换的变量,而非护城河。
编注:材料来自芯片行业分析博客chipstrat,侧重从系统架构视角拆解AI服务器各插槽的ISA相关性,未涉及具体性能基准测试数据。