Stability AI 发布了 Stability Audio 的技术论文，用 DiT 架构生成音乐

4/21/2024

https://www.chatbro.cn/news/6625338af1f37d784c55e51a

近期，基于音频的音乐生成模型取得了显著进展，但迄今为止还未能生成具有连贯音乐结构的完整长度音乐曲目。本研究表明，通过对长期时间上下文进行训练，可以生成最长达到4分钟45秒的长篇音乐。我们的模型由一个扩散变换器组成，该变换器在一个高度下采样的连续潜在表示上操作（潜在速率为21.5赫兹）。根据音频质量和提示对齐度的指标，它获得了最先进的生成效果，并且主观测试表明，它能够产生具有连贯结构的完整长度音乐。