摘要
本发明公开了一种基于多模态三维特征融合的凝视估计方法。该方法首先从RGB图像与深度图像中提取人体三维姿态特征、视图方向先验以及场景物体三维位置特征等多模态三维特征;然后将所述提取的三维特征从相机坐标系转换至以头部为原点的自我中心空间;接着,对变换后的三维特征进行方向和距离分离编码;最后,通过Transformer网络对所述编码后的人体与物体的三维特征进行交互建模,从而预测出最终的三维凝视方向。本发明通过融合多模态三维信息并进行归一化交互建模,有效克服了传统方法对清晰、近距离面部图像的依赖,显著提升了在距离远、存在遮挡等无约束场景下三维凝视估计的鲁棒性与准确性。