摘要
本发明涉及一种具身视频生成方法、装置及电子设备,该方法包括:解析任务指令及初始环境观测数据,生成关键操作步骤序列及其关联物体集合,构建三维物理约束图;基于编码条件,生成初始动作视频序列;响应于单帧动作执行,计算空间误差指标,若物体接触距离偏差、轨迹碰撞概率或物理约束违反值超过预设阈值,触发时空扩散模型基于当前物理约束图生成修正帧;响应于关键操作步骤完成,验证生成结果与任务目标的语义匹配度,若检测到关键物体属性缺失或操作逻辑错误,重新生成任务操作步骤序列及物理约束图;更新物理约束图中的物体位置、距离阈值及运动可行域,并输入时空扩散模型。本发明解决了物理一致性缺失、误差积累与语义理解割裂的问题。