秒级音频生成：Stability AI 开源 Stable Audio 3，支持分钟级合成与局部编辑

Stable Audio 3 是一个音频生成与编辑模型系列，包含 small、medium、large 三个规模。该模型基于语义声学自编码器（semantic-acoustic autoencoder），将音频投影至紧凑的潜空间再进行扩散生成，兼顾保真度与语义结构。

模型支持可变长度生成，可一次性输出数分钟音频，避免了短音效也需完整生成的高成本操作。此外还支持 inpainting（修复式编辑），可对录音进行精准的区域修改或续写。

通过对抗后训练（adversarial post-training），Stable Audio 3 在减少推理步数的同时提升了音质与提示词遵循度。在 NVIDIA H200 GPU 上生成音频不到 2 秒，在 MacBook Pro M4（Apple Silicon）上也仅需数秒。

目前 small 与 medium 两个规模的权重、训练代码与推理脚本均已开源，普通消费级显卡即可运行。该系列在licensed data 与 Creative Commons 数据上训练，聚焦音乐与音效生成。

编注：来源为arXiv预印本（2026年5月18日提交），含完整摘要、作者与代码链接，材料可信。论文披露了模型架构与benchmark数据，但未提供与其他模型（如Suno、Udio）的横向对比数据。