一种基于混合专家理论的跨模态单目深度估计方法及系统

申请号：CN202510934708

申请日期：2025-07-08

公开号：CN120852501A

公开日期：2025-10-28

类型：发明专利

摘要

本发明涉及一种基于混合专家理论的跨模态单目深度估计方法及系统，首先收集图像数据集构成训练数据集作为输入，经过深度编码器提取多尺度特征，与此同时，通过CLIP文本编码生成七档深度分类模板作为专家候选；随后，利用图卷积网络在文本模板间搭建语义关联图并开展多轮信息交互；最后，以深度编码器的多尺度空间特征为查询，借助跨模态多头交叉注意力动态路由机制稀疏激活最相关的文本与视觉专家建议，再通过残差融合将全局语义精确注入，输出结构感知更强、语义鲁棒性更高的深度图。整个网络采用自监督训练方式，通过姿态估计网络预测相机位姿并构建光度一致性损失约束来优化网络参数，无需真实深度标签即可实现端到端训练。

技术关键词

单目深度估计方法图像编码器深度编码器图像视觉特征语义解码器文本编码器高精度深度图理论姿态估计融合图像特征优化网络参数原始图像数据多尺度特征上采样