基于大语言模型的语义三维场景理解方法、装置、设备及存储介质
申请号:CN202510009870
申请日期:2025-01-03
公开号:CN119941989B
公开日期:2025-10-17
类型:发明专利
摘要
本发明公开了一种基于大语言模型的语义三维场景理解方法、装置、设备及存储介质,该方法包括:采集室内场景的多角度图片,并对多角度图片进行处理,获得多角度图片对应的三维高斯椭球和图像语义文本;将图像语义文本输入至预设大语言模型进行常识性训练,并基于训练结果预测室内场景类型获得对应的高级语义;将图像语义文本和高级语义压缩后嵌入三维高斯椭球,获得目标三维高斯椭球;基于目标三维高斯椭球,通过可微分渲染端到端训练对室内场景对应的3D模型进行参数优化,形成嵌入语义信息的3D场景表示,以构建从局部物体到全局场景的深层次场景理解,相比于现有技术,本发明有效提升了机器人系统在复杂环境中的场景理解和交互能力。
技术关键词
场景理解方法
大语言模型
语义
多角度
图片
运动恢复结构
文本
多层感知器
编码
嵌套
图像分割模型
解码
预训练模型
机器人系统
相机外参
点云
视觉传感器
相机标定