直觉世界模型、基于直觉世界模型的视觉推理方法及装置
申请号:CN202510360048
申请日期:2025-03-25
公开号:CN120494085A
公开日期:2025-08-15
类型:发明专利
摘要
本发明提供一种直觉世界模型、基于直觉世界模型的视觉推理方法及装置,该直觉世界模型包括:搜索模块,用于对目标场景的视频数据进行视觉推理,得到目标场景中的多个对象的潜在变量;直觉交互模块,用于采用显示建模方法对潜在变量进行分解和计算,得到不同对象之间的交互信息,并根据交互信息更新多个对象的运动状态;根据多个对象的运动状态推导出各对象的运动规律参数,以执行目标推理任务。本发明所述直觉世界模型能够自主发现隐式物理属性、自主发现物理规律,并对物理事件进行显示解释,提高了世界模型的视觉推理准确率。
技术关键词
视觉推理
推理方法
加速度
静态特征
对象
搜索模块
物理
推理机制
非暂态计算机可读存储介质
特征提取模块
变量
建模方法
信息更新
运动
处理器
视频帧
场景
重建误差
数据获取模块