一种基于开放词汇的复杂场景理解方法及系统

申请号：CN202511254149

申请日期：2025-09-04

公开号：CN120747966B

公开日期：2025-11-18

类型：发明专利

摘要

本发明公开了一种基于开放词汇的复杂场景理解方法及系统，基于RGB‑D相机实现，方法包括：获取待研究复杂场景的点云数据；输入待研究复杂场景可能存在的物体名称的文本，提取文本特征；通过已训练好的3D特征提取模型对点云数据提取3D特征；对3D特征和文本特征的转置进行点乘，根据点乘结果得到语义标签值，确定待研究复杂场景包含的物体；3D特征提取模型的训练步骤包括：设计2D‑3D特征融合网络，通过损失函数对2D‑3D特征融合网络和3D特征提取模型进行联合训练，引导融合后的特征向2D特征靠近，具有开放词汇能力，并和3D特征差距可控，避免丢失结构信息和语义信息，通过小物体加权优化，提高小物体类别的识别精度。

技术关键词

特征融合网络特征提取模型场景理解方法文本交叉注意力机制物体语义标签归一化模块特征提取模块多视角相机理解系统图像坐标数据线性