摘要
本发明属于图像识别与理解技术领域,具体涉及多模态特征融合图像分类方法及在人形机器人中的应用。本发明提供的多模态特征融合图像分类方法,对深度图像和雷达图像进行分块与填充预处理,然后利用结合三维卷积和异质核卷积的深度图像特征提取模块,以及二维卷积处理雷达图像;运用基于交叉注意力的Transformer网络融合深度图像和雷达图像的特征;通过多尺度Transformer网络进行深层次的特征提取与融合;将融合特征输入分类器以完成物体识别。本发明有效融合了CNN与Transformer的优势,通过多尺度处理和跨模态特征融合,提升分类识别能力,并进一步用于提升人形机器人的环境适应性和导航精度。