一种基于多模态大模型的长视觉序列生成方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态大模型的长视觉序列生成方法及装置
申请号:CN202410847349
申请日期:2024-06-27
公开号:CN118828135A
公开日期:2024-10-22
类型:发明专利
摘要
本发明公开了一种基于多模态大模型的长视觉序列生成方法及装置。该方法包括:获取训练用的多模态剧本数据;渲染器的训练和优化;自回归模型的训练;故事的生成。该装置包括:获取模块,用于得到训练用的多模态剧本数据;渲染器训练优化模块;自回归模型训练模块;生成模块。本发明能同时做到长故事与长视频的生成,不仅在视觉质量和叙事质量上取得了优越的表现,而且有效地将生成内容的持续时间显著延长。
技术关键词
序列生成方法 关键帧 多模态 图片 编码器 序列生成装置 视觉 视频生成模型 计算机设备 文本 模型训练模块 人脸特征提取 数据 可读存储介质 存储计算机程序 计算机程序产品 存储器