摘要
本发明涉及一种基于多模态大模型的音频生成方法,包括以下步骤:S1:采集并标注数据,数据包括两类,分别是文本‑音频对和视频‑音频‑文本对;S2:基于文本、视频和音频训练得到多模态大模型;S3:进行第一阶段训练:固定文本编码器、视频编码器、音频编码器和多模态大模型的参数,将采集并标注的数据输入多模态大模型,以输出音频为目标,训练音频解码器;S4:进行第二阶段训练:固定文本编码器、视频编码器和音频编码器的参数,将采集并标注的数据输入多模态大模型,以输出音频和文本为目标,同时训练多模态大模型和音频解码器。本发明可以准确、高质量的生成与文本描述和视频相对应的音频,同时音视频可以实现很好的对齐效果。