基于多模态输入的视频生成方法、装置及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态输入的视频生成方法、装置及系统
申请号:CN202411104296
申请日期:2024-08-13
公开号:CN118646940A
公开日期:2024-09-13
类型:发明专利
摘要
本发明公开了一种基于多模态输入的视频生成方法、装置及系统,该方法包括:接收用户的多模态输入;利用多模态输入获得用户输入的文本描述;利用文本描述生成目标字幕和对应的目标音频;根据文本描述生成多维度的第一嵌入向量表示;利用第一嵌入向量表示在预存的数据库中搜索匹配出至少一个目标视频素材;利用目标字幕、目标音频以及目标视频素材合成视频。利用本申请的技术方案,用户可以通过不同的交互方式轻松制作视频,与传统的只能以文字输入生成视频相比,本申请为用户提供了更多的交互选择,既能以文字输入生成视频,也能以诸如图像、视频以及语音的输入来生成视频,还可以结合多种输入来生成视频,视频质量以及稳定性均更高。
技术关键词
视频生成方法 多模态 视频图像特征 文本 视频生成装置 音频 转换单元 梅尔频率倒谱系数 语义特征 字幕 视频编码器 视频生成系统 语音特征 注意力机制 匹配模块 序列
系统为您推荐了相关专利信息
弹幕特效 大语言模型 注意力 多模态 管理页面
图片 识别器 word2vec模型 元素 噪声数据
多模态深度学习 识别方法 加密 合规性 风险
结构化医疗数据 特征向量空间 空间填充曲线 空间约束条件 医学知识图谱
描述符 识别方法 多模态特征 文本 分子