CPU 为何有周期：物理极限与缓存层级的深度解析

在现代 CPU 里，「信号走得越远，访问越慢」几乎是铁律。不过这里的限制主要来自线路的寄生电容——电容值与连接长度成正比，而非光速本身。光是穿越 0.5 毫米往返也只需 3×10⁻¹² 秒，而一次寄存器运算实际耗时约 3×10⁻¹⁰ 秒，差距达两个数量级。

从寄存器到 ALU：流水线消除了往返延迟

一条 a += b; 语句在编译后是寄存器间的运算（R-R 操作）。由于所有现代 64 位 CPU 都采用流水线，所需数据往往在 ALU 需要时已「就位」，大多数情况下可规避「取数据→运算→写回」带来的延迟惩罚。加法、位运算等简单操作仅需 1 个 CPU 时钟周期；乘法约 3～6 个周期；除法则已从早年 100+ 周期大幅缩短至约 20 个周期。

值得注意的是，CPU 核心里通常不止一个 ALU 和 SIMD 单元——这意味着 CPU 是超标量架构，同一周期可完成多条指令。这一特性会导致某些微基准测试中单条指令的平均耗时出现非整数（如 0.75 周期），这不代表操作真的耗时更短，而是 CPU 在统计上实现了 3 周期内完成 4 次操作。现代 CPU 的 Retire Instructions Per Cycle（RIPC）理论上限可达 10～12，但实际应用中达到 4 已相当困难，通常只出现在「受 ALU 限制」的算法中，而「受内存限制」的算法则远低于此。

缓存层级：距离即代价

数据不在寄存器中时，CPU 必须访问内存——但内存是分层的缓存体系。离 CPU 最近的是 L1 数据缓存（L1D），读取约需 3 个周期；写入则几乎「瞬时」，CPU 仅需发出写入指令，无需等待完成。L1 未命中后访问 L2 则贵得多，通常需 10～15 个周期。

分支预测失误：最值得优化的盲区

现代编译器对指令调度已优化得相当完善，绝大多数延迟和停顿都与数据相关而非指令本身——但分支是例外。CPU 遇到跳转指令时，必须先计算出条件结果才能决定走向，否则就面临流水线停顿。为此，CPU 会进行分支预测，猜测最可能的分支并提前执行；猜对则无事发生，猜错则需丢弃所有基于错误猜测的计算并从头执行，这便是分支预测失误的代价，约为 15～25 个周期。程序员可通过 [[likely]]/[[unlikely]] 等提示影响编译器的分支预测优化方向，从而减少预测失误次数。

编注：信源为技术博客初稿，取自一本关于现代 64 位 C++ 高效编程的未出版书籍章节。材料侧重 CPU 微架构的原理性讲解，未涉及具体芯片型号性能对比或编译器实现细节。