返回

Stability AI 发布了 Stability Audio 的技术论文,用 DiT 架构生成音乐

4/21/2024
https://www.chatbro.cn/news/6625338af1f37d784c55e51a

近期,基于音频的音乐生成模型取得了显著进展,但迄今为止还未能生成具有连贯音乐结构的完整长度音乐曲目。本研究表明,通过对长期时间上下文进行训练,可以生成最长达到4分钟45秒的长篇音乐。我们的模型由一个扩散变换器组成,该变换器在一个高度下采样的连续潜在表示上操作(潜在速率为21.5赫兹)。根据音频质量和提示对齐度的指标,它获得了最先进的生成效果,并且主观测试表明,它能够产生具有连贯结构的完整长度音乐。