大模型推理性能优化：从KV Cache到FlashAttention

大模型推理性能优化的核心在于解决内存I/O瓶颈，而非单纯增加算力。通过显存管理（vLLM的PagedAttention）、编译层算子融合（Triton）和精确注意力加速（FlashAttention）三项技术，推理吞吐量可提升数倍至数十倍。最值得记住的数据：vLLM通过PagedAttention将KV Cache显存浪费率从80%骤降至4%以下。

背景：为什么推理瓶颈是内存I/O

在LLM推理的Decode阶段（逐Token生成），每次只计算少量新Token，计算量小，但需要频繁读取前文所有Key/Value缓存（KV Cache）。GPU显存（HBM）带宽远低于片上缓存（SRAM），导致大量时间花在数据搬运上，而非计算。实测中，顶级GPU（如A100）推理时的GPU-Util常仅30%左右，剩余算力因等待I/O而闲置。传统框架采用预分配连续显存的方式管理KV Cache，进一步加剧了碎片化和过度预留（浪费率达60%-80%），限制了并发请求数。

关键技术原理与影响

vLLM的PagedAttention与Continuous Batching：借鉴操作系统虚拟内存分页思想，将显存划分为固定大小物理块，按需分配并建立逻辑到物理的映射（块表），消除了连续内存要求，使显存浪费率降至4%以下。同时，Continuous Batching将调度单位从“请求”改为“迭代步骤”——每生成一个Token后动态组合当前就绪的请求为批次，完成即释放，大幅提升GPU利用率。

Triton编译层优化：传统PyTorch Eager模式将简单操作拆分为多次Kernel调用，CPU-GPU通信开销大。Triton允许用Python编写融合算子（如将加法与ReLU合并），一次启动完成所有操作，中间结果留在片上SRAM，减少显存读写。其抽象中间表示还支持跨平台（NVIDIA/AMD/国产芯片）无缝迁移。

FlashAttention精确加速：标准Attention需要计算并存储巨大的中间Score矩阵（序列长度平方级），造成大量HBM读写。FlashAttention通过Tiling（分块）和Online Softmax，将Q、K、V切块后在SRAM内完成所有计算，只输出最终结果，完全避免中间矩阵的显存占用，在长序列场景实现数量级提速。

编注：信源为知乎技术文章，材料覆盖KV Cache、PagedAttention、Triton、FlashAttention等优化技术，未涉及具体硬件性能比较或商业部署细节。