摘要
本发明公开了一种基于开放词汇的复杂场景理解方法及系统,基于RGB‑D相机实现,方法包括:获取待研究复杂场景的点云数据;输入待研究复杂场景可能存在的物体名称的文本,提取文本特征;通过已训练好的3D特征提取模型对点云数据提取3D特征;对3D特征和文本特征的转置进行点乘,根据点乘结果得到语义标签值,确定待研究复杂场景包含的物体;3D特征提取模型的训练步骤包括:设计2D‑3D特征融合网络,通过损失函数对2D‑3D特征融合网络和3D特征提取模型进行联合训练,引导融合后的特征向2D特征靠近,具有开放词汇能力,并和3D特征差距可控,避免丢失结构信息和语义信息,通过小物体加权优化,提高小物体类别的识别精度。