一种基于多模态大模型的音频生成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态大模型的音频生成方法
申请号:CN202510098036
申请日期:2025-01-22
公开号:CN119785761A
公开日期:2025-04-08
类型:发明专利
摘要
本发明涉及一种基于多模态大模型的音频生成方法,包括以下步骤:S1:采集并标注数据,数据包括两类,分别是文本‑音频对和视频‑音频‑文本对;S2:基于文本、视频和音频训练得到多模态大模型;S3:进行第一阶段训练:固定文本编码器、视频编码器、音频编码器和多模态大模型的参数,将采集并标注的数据输入多模态大模型,以输出音频为目标,训练音频解码器;S4:进行第二阶段训练:固定文本编码器、视频编码器和音频编码器的参数,将采集并标注的数据输入多模态大模型,以输出音频和文本为目标,同时训练多模态大模型和音频解码器。本发明可以准确、高质量的生成与文本描述和视频相对应的音频,同时音视频可以实现很好的对齐效果。
技术关键词
音频生成方法 多模态 音频编码器 音频解码器 文本编码器 视频编码器 序列帧 数据 音视频 参数