一种基于DeepSeek训练框架的多模态自动驾驶训练方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于DeepSeek训练框架的多模态自动驾驶训练方法
申请号:CN202511408309
申请日期:2025-09-29
公开号:CN120910477A
公开日期:2025-11-07
类型:发明专利
摘要
本发明涉及自动驾驶技术领域,尤其涉及一种基于DeepSeek训练框架的多模态自动驾驶训练方法。包括:读取DriveLM‑nuScenes数据集的多视角摄像头图像与文本指令,按环视布局拼接图像形成全景表示;对全景图像进行缩放、归一化及标准化处理得到图像张量;对文本指令进行标记化处理,插入图像占位符与对话角色标记,结构化文本输入表示;通过多模态对齐模块实现视觉与文本标记序列的维度对齐、位置编码附加及跨模态注意力融合,生成多模态嵌入表示;将嵌入表示输入DeepSeek语言模型自回归生成决策文本,以带掩码的交叉熵损失为优化目标。本发明解决了现有多视图融合不足、模态对齐薄弱等问题,提升了复杂场景下的认知可靠性与决策可解释性,适配车载边缘部署。
技术关键词
文本 序列 标记 图像 多模态 对齐模块 注意力 框架 训练优化方法 跨模态 自然语言信息 优化器 局部纹理特征 损失函数设计 位置编码信息 指令 语义 视觉 多视角