基于大语言模型的三维场景理解方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于大语言模型的三维场景理解方法
申请号:CN202510104278
申请日期:2025-01-23
公开号:CN119942547A
公开日期:2025-05-06
类型:发明专利
摘要
本发明提供了一种基于大语言模型的三维场景理解方法,包括:采集场景的点云数据和多视角图像信息;对点云数据进行处理,得到更加精细的点云数据;得到三维语义场景图和语义关系的特征向量;得到物体的3D几何信息特征向量和2D语义信息特征向量;将语义关系的特征向量、物体的3D几何信息特征向量和2D语义信息特征向量投影到大语言模型的嵌入空间,得到语义丰富的场景表示;使用k‑最近邻算法得到包含所有对象的子图序列;根据子图序列训练大语言模型,即可得到一个可以理解三维场景的语言模型。该三维场景理解方法,可以有效地利用语义信息,提高三维场景理解模型的理解能力和鲁棒性。
技术关键词
场景理解方法 Voronoi多边形 大语言模型 语义场景 物体 编码器 深度学习模型 对象 插值模块 关系 顶点 生成自然语言 监督学习方法 三维点云数据 去噪算法 去噪方法 序列