一种基于视觉语言模型引导的自动驾驶汽车扩散导航方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于视觉语言模型引导的自动驾驶汽车扩散导航方法
申请号:CN202511562713
申请日期:2025-10-30
公开号:CN121026178A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种基于视觉语言模型引导的自动驾驶汽车扩散导航方法,涉及自动驾驶领域,包括:获取汽车导航的图像序列和自然语言指令,对图像序列中各帧图像进行语义映射得到各帧的语义色块图;将语义色块图,拼接组成一个时间连续的语义图序列;通过卷积神经网络对语义图序列进行空间结构特征提取和拼接,然后通过Transformer网络进行编码,得到时空融合特征;将时空融合特征作为条件嵌入向量,输入预训练的条件去噪扩散概率模型进行轨迹预测,根据输出的轨迹点序列对车辆进行导航控制。本发明融合图像统计先验与语言提示生成语义区域图,引导扩散模型生成符合指令语义的未来轨迹,实现端到端的语言驱动控制。
技术关键词
导航方法 时空融合特征 空间结构特征提取 语义 噪声预测 图像序列数据 色块 多头注意力机制 轨迹 网络 视觉 去噪模型 自然语言 汽车导航 噪声强度系数
系统为您推荐了相关专利信息
路段 地图数据处理方法 移动网络运营商 导航方法 地图数据处理装置
关键词 修剪方法 语义 语句 计算机存储介质
智能管控方法 分布式架构 网络拓扑 节点 语义标签
文本处理方法 社交 风格 网络节点 指标
NLP技术 修正错别字 语义 BERT模型 命名实体识别