基于多模态大模型的自动驾驶模型、训练和自动驾驶方法

申请号：CN202411545595

申请日期：2024-10-31

公开号：CN119514635A

公开日期：2025-02-25

类型：发明专利

摘要

本公开提供了一种基于多模态大模型的自动驾驶模型、训练和自动驾驶方法，涉及计算机技术领域，尤其涉及自动驾驶和人工智能技术领域。实现方案为：获取训练语料数据集，至少包括视觉文本对齐语料和用于自动驾驶场景的空间理解训练语料；利用视觉编码器对视觉文本对齐语料中的视觉数据进行编码，以得到编码数据；利用映射层对编码数据进行映射；利用生成层分别对经映射的编码数据和文本数据以及空间理解训练语料进行处理，以得到自动驾驶模型的第一预测结果和第二预测结果；至少基于第一预测结果和第二预测结果来调整自动驾驶模型的参数。利用本公开的实施例训练得到的自动驾驶模型既具有多模态信息的理解能力，也具有自动驾驶场景下的推理能力。

技术关键词

文本视觉视频编码数据自动驾驶方法自动驾驶装置仿真环境仿真数据场景视频编码器样本指令参数自动驾驶系统多模态信息视频解码器处理器

系统为您推荐了相关专利信息

一种基于文本数据的图像生成方法、系统及装置

图像生成方法文本指数色彩生成对抗网络

应用程序确定方法、电子设备、芯片系统及可读存储介质

标识电子设备界面芯片系统计算机程序代码

保险业务中的流程管控方法及装置

管控方法风险数据电梯运行状态企业

基于事件与图像双向协同引导的低光照增强方法

事件特征图像滤波器光照峰值信噪比

一种视觉三维定位检验装置、系统、方法和终端设备

定位检验装置直线模组模组主体三维定位系统视觉