基于大语言模型的语义三维场景理解方法、装置、设备及存储介质

申请号：CN202510009870

申请日期：2025-01-03

公开号：CN119941989B

公开日期：2025-10-17

类型：发明专利

摘要

本发明公开了一种基于大语言模型的语义三维场景理解方法、装置、设备及存储介质，该方法包括：采集室内场景的多角度图片，并对多角度图片进行处理，获得多角度图片对应的三维高斯椭球和图像语义文本；将图像语义文本输入至预设大语言模型进行常识性训练，并基于训练结果预测室内场景类型获得对应的高级语义；将图像语义文本和高级语义压缩后嵌入三维高斯椭球，获得目标三维高斯椭球；基于目标三维高斯椭球，通过可微分渲染端到端训练对室内场景对应的3D模型进行参数优化，形成嵌入语义信息的3D场景表示，以构建从局部物体到全局场景的深层次场景理解，相比于现有技术，本发明有效提升了机器人系统在复杂环境中的场景理解和交互能力。

技术关键词

场景理解方法大语言模型语义多角度图片运动恢复结构文本多层感知器编码嵌套图像分割模型解码预训练模型机器人系统相机外参点云视觉传感器相机标定