摘要
本发明提供一种音乐生成方法、装置、电子设备及存储介质,涉及音乐生成技术领域,该方法采用的目标音乐生成模型在训练过程中,通过对初始音乐生成模型进行预训练,可以使初始音乐生成模型学习到完整音乐片段样本中的基本模式和结构,为后续的强化学习优化奠定基础。通过引入GRPO算法和统一音频美学评估工具,能够对预训练模型进行精准优化,得到目标音乐生成模型。GRPO算法将统一音频美学评估工具的美学评价指标作为奖励指标,引导预训练模型调整生成策略,能够精确地衡量目标音乐生成模型生成的目标音乐片段的艺术价值,使目标音乐片段在旋律、和声、节奏等方面更加协调、优美,质量显著提高,更符合美学标准。