基于大模型的深度图生成方法、三维重建方法、装置、电子设备和存储介质
申请号:CN202510830781
申请日期:2025-06-19
公开号:CN120672926A
公开日期:2025-09-19
类型:发明专利
摘要
本公开提供了一种基于大模型的深度图生成方法、三维重建方法、装置、电子设备和存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于实时道路场景深度感知、环境三维重建与避障,以及虚实场景融合等场景下。具体实现方案为:对单目图像进行视觉编码,得到编码图像;将编码图像和目标文本输入预训练大语言模型进行融合,得到融合特征;基于融合特征生成全局引导特征,全局引导特征包括视觉特征和文本特征的联合语义信息;对单目图像的彩色图像添加噪声,得到噪声特征序列;以全局引导特征为条件,对噪声特征序列进行去噪,生成与联合语义信息匹配的隐式特征;基于隐式特征生成深度图。
技术关键词
噪声特征
融合特征
视觉特征
文本
图像采集设备
三维重建方法
彩色图像编码
生成深度图
大语言模型
隐式特征
序列
深度图生成装置
多尺度特征
生成方法
语义
三维重建装置