基于大语言模型的语义三维场景理解方法、装置、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于大语言模型的语义三维场景理解方法、装置、设备及存储介质
申请号:CN202510009870
申请日期:2025-01-03
公开号:CN119941989B
公开日期:2025-10-17
类型:发明专利
摘要
本发明公开了一种基于大语言模型的语义三维场景理解方法、装置、设备及存储介质,该方法包括:采集室内场景的多角度图片,并对多角度图片进行处理,获得多角度图片对应的三维高斯椭球和图像语义文本;将图像语义文本输入至预设大语言模型进行常识性训练,并基于训练结果预测室内场景类型获得对应的高级语义;将图像语义文本和高级语义压缩后嵌入三维高斯椭球,获得目标三维高斯椭球;基于目标三维高斯椭球,通过可微分渲染端到端训练对室内场景对应的3D模型进行参数优化,形成嵌入语义信息的3D场景表示,以构建从局部物体到全局场景的深层次场景理解,相比于现有技术,本发明有效提升了机器人系统在复杂环境中的场景理解和交互能力。
技术关键词
场景理解方法 大语言模型 语义 多角度 图片 运动恢复结构 文本 多层感知器 编码 嵌套 图像分割模型 解码 预训练模型 机器人系统 相机外参 点云 视觉传感器 相机标定