摘要
本发明提供了一种基于大语言模型的三维场景理解方法,包括:采集场景的点云数据和多视角图像信息;对点云数据进行处理,得到更加精细的点云数据;得到三维语义场景图和语义关系的特征向量;得到物体的3D几何信息特征向量和2D语义信息特征向量;将语义关系的特征向量、物体的3D几何信息特征向量和2D语义信息特征向量投影到大语言模型的嵌入空间,得到语义丰富的场景表示;使用k‑最近邻算法得到包含所有对象的子图序列;根据子图序列训练大语言模型,即可得到一个可以理解三维场景的语言模型。该三维场景理解方法,可以有效地利用语义信息,提高三维场景理解模型的理解能力和鲁棒性。