摘要
本发明适用于音乐生成技术领域,提供了一种基于旋律引导的文字生成音乐算法,其方法包括:通过公共数据集获取音乐波形、旋律和文本描述这三种模态的数据后编码;将编码后得到的音频表征、旋律表征和文本表征对齐在统一向量空间中;以文本表征作为查询条件在构建的旋律向量数据库中检索目标旋律向量表征;将目标旋律向量表征和文本表征作为融合条件引导扩散过程,生成符合文本描述和旋律引导的潜在音乐表征;利用变分自动解码器中的解码器将所述潜在音乐表征进行初步解码为目标梅尔频谱图;通过声码器将所述目标梅尔频谱图转换为可播放的音乐,最终生成了符合文本描述且旋律优美的高质量可播放音乐。