摘要
本发明公开了一种基于多模态输入的视频生成方法、装置及系统,该方法包括:接收用户的多模态输入;利用多模态输入获得用户输入的文本描述;利用文本描述生成目标字幕和对应的目标音频;根据文本描述生成多维度的第一嵌入向量表示;利用第一嵌入向量表示在预存的数据库中搜索匹配出至少一个目标视频素材;利用目标字幕、目标音频以及目标视频素材合成视频。利用本申请的技术方案,用户可以通过不同的交互方式轻松制作视频,与传统的只能以文字输入生成视频相比,本申请为用户提供了更多的交互选择,既能以文字输入生成视频,也能以诸如图像、视频以及语音的输入来生成视频,还可以结合多种输入来生成视频,视频质量以及稳定性均更高。