一种基于多模态大模型的音频生成方法

申请号：CN202510098036

申请日期：2025-01-22

公开号：CN119785761A

公开日期：2025-04-08

类型：发明专利

摘要

本发明涉及一种基于多模态大模型的音频生成方法，包括以下步骤：S1：采集并标注数据，数据包括两类，分别是文本‑音频对和视频‑音频‑文本对；S2：基于文本、视频和音频训练得到多模态大模型；S3：进行第一阶段训练：固定文本编码器、视频编码器、音频编码器和多模态大模型的参数，将采集并标注的数据输入多模态大模型，以输出音频为目标，训练音频解码器；S4：进行第二阶段训练：固定文本编码器、视频编码器和音频编码器的参数，将采集并标注的数据输入多模态大模型，以输出音频和文本为目标，同时训练多模态大模型和音频解码器。本发明可以准确、高质量的生成与文本描述和视频相对应的音频，同时音视频可以实现很好的对齐效果。

技术关键词

音频生成方法多模态音频编码器音频解码器文本编码器视频编码器序列帧数据音视频参数