一种基于视觉语言模型引导的自动驾驶汽车扩散导航方法
申请号:CN202511562713
申请日期:2025-10-30
公开号:CN121026178A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种基于视觉语言模型引导的自动驾驶汽车扩散导航方法,涉及自动驾驶领域,包括:获取汽车导航的图像序列和自然语言指令,对图像序列中各帧图像进行语义映射得到各帧的语义色块图;将语义色块图,拼接组成一个时间连续的语义图序列;通过卷积神经网络对语义图序列进行空间结构特征提取和拼接,然后通过Transformer网络进行编码,得到时空融合特征;将时空融合特征作为条件嵌入向量,输入预训练的条件去噪扩散概率模型进行轨迹预测,根据输出的轨迹点序列对车辆进行导航控制。本发明融合图像统计先验与语言提示生成语义区域图,引导扩散模型生成符合指令语义的未来轨迹,实现端到端的语言驱动控制。
技术关键词
导航方法
时空融合特征
空间结构特征提取
语义
噪声预测
图像序列数据
色块
多头注意力机制
轨迹
网络
视觉
去噪模型
自然语言
汽车导航
噪声强度系数