基于多模态大模型的自动驾驶模型、训练和自动驾驶方法
申请号:CN202411545595
申请日期:2024-10-31
公开号:CN119514635A
公开日期:2025-02-25
类型:发明专利
摘要
本公开提供了一种基于多模态大模型的自动驾驶模型、训练和自动驾驶方法,涉及计算机技术领域,尤其涉及自动驾驶和人工智能技术领域。实现方案为:获取训练语料数据集,至少包括视觉文本对齐语料和用于自动驾驶场景的空间理解训练语料;利用视觉编码器对视觉文本对齐语料中的视觉数据进行编码,以得到编码数据;利用映射层对编码数据进行映射;利用生成层分别对经映射的编码数据和文本数据以及空间理解训练语料进行处理,以得到自动驾驶模型的第一预测结果和第二预测结果;至少基于第一预测结果和第二预测结果来调整自动驾驶模型的参数。利用本公开的实施例训练得到的自动驾驶模型既具有多模态信息的理解能力,也具有自动驾驶场景下的推理能力。
技术关键词
文本
视觉
视频编码数据
自动驾驶方法
自动驾驶装置
仿真环境
仿真数据
场景
视频编码器
样本
指令
参数
自动驾驶系统
多模态信息
视频解码器
处理器