摘要
本申请提供一种基于视觉语言的自动驾驶方法、设备及介质,涉及自动驾驶技术领域。该方法包括:获取导航地图输入的导航指令以及多视角传感器采集到的多视图图像数据;根据预设的轨迹规划模型中的视觉语言模型以及导航指令和多视图图像数据,得到视觉语言向量;根据轨迹规划模型中的端到端模型、导航指令、多视图图像数据以及视觉语言向量,得到车辆的规划轨迹;确定规划轨迹对应的控制信号,并根据控制信号进行自动驾驶。本申请的方法,简化了自动驾驶过程中轨迹预测的处理流程,降低了计算量消耗,且能处理复杂的路况,提高了自动驾驶的场景覆盖度。