摘要
基于关键步骤的人类技能视频生成方法、设备及介质,首先,利用多模态大语言模型结合检索机制生成关键步骤描述;其次,通过关键步骤图像生成器处理关键步骤间的不连续性,生成关键步骤图像;最后,利用视频生成模型基于描述和关键步骤图像生成具有高时间一致性的视频片段。本发明提出了一种创新的视频生成方法,用于解决人类复杂技能生成的难题。本发明通过引入关键步骤技能生成任务,简化了人类技能视频的生成过程,以初始状态图和技能描述为输入,生成技能完成所需关键步骤的视频片段,而完整技能视频。本发明能为人类技能学习和智能体经验积累提供有力支撑,同时推动复杂技能生成领域的研究与应用发展。