一种基于视觉语言模型引导的自动驾驶汽车扩散导航方法

申请号：CN202511562713

申请日期：2025-10-30

公开号：CN121026178A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种基于视觉语言模型引导的自动驾驶汽车扩散导航方法，涉及自动驾驶领域，包括：获取汽车导航的图像序列和自然语言指令，对图像序列中各帧图像进行语义映射得到各帧的语义色块图；将语义色块图，拼接组成一个时间连续的语义图序列；通过卷积神经网络对语义图序列进行空间结构特征提取和拼接，然后通过Transformer网络进行编码，得到时空融合特征；将时空融合特征作为条件嵌入向量，输入预训练的条件去噪扩散概率模型进行轨迹预测，根据输出的轨迹点序列对车辆进行导航控制。本发明融合图像统计先验与语言提示生成语义区域图，引导扩散模型生成符合指令语义的未来轨迹，实现端到端的语言驱动控制。

技术关键词

导航方法时空融合特征空间结构特征提取语义噪声预测图像序列数据色块多头注意力机制轨迹网络视觉去噪模型自然语言汽车导航噪声强度系数