基于大语言模型的三维场景理解方法

申请号：CN202510104278

申请日期：2025-01-23

公开号：CN119942547A

公开日期：2025-05-06

类型：发明专利

摘要

本发明提供了一种基于大语言模型的三维场景理解方法，包括：采集场景的点云数据和多视角图像信息；对点云数据进行处理，得到更加精细的点云数据；得到三维语义场景图和语义关系的特征向量；得到物体的3D几何信息特征向量和2D语义信息特征向量；将语义关系的特征向量、物体的3D几何信息特征向量和2D语义信息特征向量投影到大语言模型的嵌入空间，得到语义丰富的场景表示；使用k‑最近邻算法得到包含所有对象的子图序列；根据子图序列训练大语言模型，即可得到一个可以理解三维场景的语言模型。该三维场景理解方法，可以有效地利用语义信息，提高三维场景理解模型的理解能力和鲁棒性。

技术关键词

场景理解方法 Voronoi多边形大语言模型语义场景物体编码器深度学习模型对象插值模块关系顶点生成自然语言监督学习方法三维点云数据去噪算法去噪方法序列