摘要
本申请涉及自动驾驶技术领域,特别涉及一种纯视觉的4D占据预测方法、装置、设备及介质。所述方法通过特征提取模块提取每帧多视角图像的二维图像特征;通过三维时空建模分支基于二维图像特征确定未来多帧初始时空特征;通过二维语义时空建模分支基于二维图像特征确定多帧细化图像特征;通过时空交互模块基于多帧细化图像特征与未来三维时序特征确定分层时序特征;通过三维时空建模分支基于未来多帧时空特征确定未来多帧3D占用结果。本申请建模多视角视频帧在不同时间戳下融合3D特征的时空关联,利用所述多帧细化图像特征对初始分层时序特征以进行跨维度时空特征交互,显著增强了4D占用预测效果。