一种基于大型视觉语言模型的自动驾驶解释文本确定方法

申请号：CN202411597741

申请日期：2024-11-11

公开号：CN119142366A

公开日期：2024-12-17

类型：发明专利

摘要

本发明涉及自动驾驶技术领域，具体公开了一种基于大型视觉语言模型的自动驾驶解释文本确定方法，所述方法包括获取多视角摄像头图像、BEV地图图像以及文本查询模板；对多视角摄像头图像中的视频特征进行提取，对BEV地图图像中的图像特征进行提取；基于模态编码器对图像特征与视频特征进行对齐；将文本查询模板进行编码，生成文本标记，基于共享投影器将对齐后的图像特征与视频特征映射到文本嵌入空间，生成视觉标记，将视觉标记与文本标记输入LLM骨干模型，实现了全面的三维动/静态情境感知以及局部场景与全局地图的视觉表示统一，3D LVLM架构具备出色的三维空间理解和动态时间推理能力，有效提升端到端自动驾驶的准确性和安全性。

技术关键词

文本视觉图像编码器视频编码器多视角基准模板标记自动驾驶技术全局地图生成场景分层序列