Google开源实时音乐AI模型MRT2:Mac本地跑、可控延迟40毫秒

Google开源实时音乐AI模型MRT2:Mac本地跑、可控延迟40毫秒

_

Google Magenta 团队正式发布 Magenta RealTime 2(MRT2),这是一款支持本地运行的实时音乐生成开源模型。体积达 2.4B 参数,配合专属 C++ 推理引擎,在 Apple Silicon MacBook 上可实现约 40 毫秒音频帧延迟。与传统 AI 音乐工具一次性生成整首曲目不同,MRT2 作为可交互乐器,用户通过 MIDI 设备、文本描述或音频样本实时控制生成过程。

为什么能实时响应

技术层面,MRT2 采用帧级自回归架构,基于 SpectroStream 编解码器处理音频 token 序列。与前代产品相比,关键突破在于帧对齐条件注入机制——MIDI 信号与风格提示在每个生成步骤中同步输入,使模型能够对演奏变化做出即时响应。团队还引入因果滑动窗口注意力机制,在保持连续流式生成的同时控制内存占用,配合可学习注意力嵌入减少长上下文生成中的伪影问题。

落地音乐人桌面

这款模型专为音乐人日常工作环境设计。通过 MLX 框架将 JAX/MLX 模型编译为 .mlxfn 格式,再由 C++ 推理引擎调用,在 MacBook GPU 上高效执行。苹果 MLX 已针对 Apple Silicon 优化,无需依赖云端或高算力 GPU。用户可通过 pip 安装 magenta-rt 库,或直接调用开源推理引擎嵌入第三方音乐软件 DAW。

Magenta 团队自 2017 年发布 NSynth 神经合成器以来,一直在探索 AI 作为音乐工具而非替代者的路径。MRT2 比第一代降低约 15 倍延迟,真正让实时 AI 生成成为可能。团队表示后续将开放微调功能,允许用户用自己的数据定制模型。

编注:信源为 Google Magenta 官方博客,材料侧重技术原理、产品特性与团队愿景,未涉及与竞品的具体性能对比或商业化计划。


Meta眼镜配套App暗藏人脸识别:代码已推送,功能未开引争议 2026-06-05
SpaceX敲定IPO发行价135美元 筹资750亿美元创史上最大规模 2026-06-05