一种基于旋律引导的文字生成音乐算法

申请号：CN202510117783

申请日期：2025-01-24

公开号：CN119943011A

公开日期：2025-05-06

类型：发明专利

摘要

本发明适用于音乐生成技术领域，提供了一种基于旋律引导的文字生成音乐算法，其方法包括：通过公共数据集获取音乐波形、旋律和文本描述这三种模态的数据后编码；将编码后得到的音频表征、旋律表征和文本表征对齐在统一向量空间中；以文本表征作为查询条件在构建的旋律向量数据库中检索目标旋律向量表征；将目标旋律向量表征和文本表征作为融合条件引导扩散过程，生成符合文本描述和旋律引导的潜在音乐表征；利用变分自动解码器中的解码器将所述潜在音乐表征进行初步解码为目标梅尔频谱图；通过声码器将所述目标梅尔频谱图转换为可播放的音乐，最终生成了符合文本描述且旋律优美的高质量可播放音乐。

技术关键词

文本音频多层感知器批量数据解码器音乐生成技术变分自动编码器样本表达式声码器神经网络结构梯度下降算法噪声预测波形参数