Stable Audio 3 是一个音频生成与编辑模型系列,包含 small、medium、large 三个规模。该模型基于语义声学自编码器(semantic-acoustic autoencoder),将音频投影至紧凑的潜空间再进行扩散生成,兼顾保真度与语义结构。
模型支持可变长度生成,可一次性输出数分钟音频,避免了短音效也需完整生成的高成本操作。此外还支持 inpainting(修复式编辑),可对录音进行精准的区域修改或续写。
通过对抗后训练(adversarial post-training),Stable Audio 3 在减少推理步数的同时提升了音质与提示词遵循度。在 NVIDIA H200 GPU 上生成音频不到 2 秒,在 MacBook Pro M4(Apple Silicon)上也仅需数秒。
目前 small 与 medium 两个规模的权重、训练代码与推理脚本均已开源,普通消费级显卡即可运行。该系列在licensed data 与 Creative Commons 数据上训练,聚焦音乐与音效生成。
编注:来源为arXiv预印本(2026年5月18日提交),含完整摘要、作者与代码链接,材料可信。论文披露了模型架构与benchmark数据,但未提供与其他模型(如Suno、Udio)的横向对比数据。