具身视频生成方法、装置及电子设备

申请号：CN202511018552

申请日期：2025-07-23

公开号：CN120856948A

公开日期：2025-10-28

类型：发明专利

摘要

本发明涉及一种具身视频生成方法、装置及电子设备，该方法包括：解析任务指令及初始环境观测数据，生成关键操作步骤序列及其关联物体集合，构建三维物理约束图；基于编码条件，生成初始动作视频序列；响应于单帧动作执行，计算空间误差指标，若物体接触距离偏差、轨迹碰撞概率或物理约束违反值超过预设阈值，触发时空扩散模型基于当前物理约束图生成修正帧；响应于关键操作步骤完成，验证生成结果与任务目标的语义匹配度，若检测到关键物体属性缺失或操作逻辑错误，重新生成任务操作步骤序列及物理约束图；更新物理约束图中的物体位置、距离阈值及运动可行域，并输入时空扩散模型。本发明解决了物理一致性缺失、误差积累与语义理解割裂的问题。

技术关键词

视频生成方法物体物理交叉注意力机制序列三维点云数据动态更新文本执行主体编码深度图语义向量视频生成装置坐标电子设备生成动作轨迹仿真环境