基于多模态输入的视频生成方法、装置及系统

申请号：CN202411104296

申请日期：2024-08-13

公开号：CN118646940A

公开日期：2024-09-13

类型：发明专利

摘要

本发明公开了一种基于多模态输入的视频生成方法、装置及系统，该方法包括：接收用户的多模态输入；利用多模态输入获得用户输入的文本描述；利用文本描述生成目标字幕和对应的目标音频；根据文本描述生成多维度的第一嵌入向量表示；利用第一嵌入向量表示在预存的数据库中搜索匹配出至少一个目标视频素材；利用目标字幕、目标音频以及目标视频素材合成视频。利用本申请的技术方案，用户可以通过不同的交互方式轻松制作视频，与传统的只能以文字输入生成视频相比，本申请为用户提供了更多的交互选择，既能以文字输入生成视频，也能以诸如图像、视频以及语音的输入来生成视频，还可以结合多种输入来生成视频，视频质量以及稳定性均更高。

技术关键词

视频生成方法多模态视频图像特征文本视频生成装置音频转换单元梅尔频率倒谱系数语义特征字幕视频编码器视频生成系统语音特征注意力机制匹配模块序列

系统为您推荐了相关专利信息

数据处理方法、装置、设备及可读存储介质

弹幕特效大语言模型注意力多模态管理页面

一种基于潜在扩散模型生成多样性图片的方法研究

图片识别器 word2vec模型元素噪声数据

基于多模态深度学习的工业车间安全生产行为识别方法

多模态深度学习识别方法加密合规性风险

一种基于医疗数据生成结算清单的方法及系统

结构化医疗数据特征向量空间空间填充曲线空间约束条件医学知识图谱

一种新污染物识别方法、系统、设备及存储介质

描述符识别方法多模态特征文本分子