基于多模态大语言模型的动态风格行为规划方法、装置及存储介质
申请号:CN202510500061
申请日期:2025-04-21
公开号:CN120339755A
公开日期:2025-07-18
类型:发明专利
摘要
本发明公开了一种基于多模态大语言模型的动态风格行为规划方法及存储介质,包括驾驶数据采集,进行多种风格行车数据的采集;图像风格迁移,将仿真图像的风格对齐至现实世界图像的视觉风格;多模态语言模型训练,将多种模态的数据映射到一个统一的特征空间中,在这个共同的空间中对不同模态信息进行交互和推理。本发明利用仿真器和图像风格迁移技术,高效、低成本地获取大量接近真实世界场景的驾驶数据,借助多模态语言模型能够根据不同提示生成多元化响应的特质达到灵活转换车辆自动驾驶风格的目的,同时由于模型具备以文本形式输出场景理解和决策逻辑等相关信息的能力,大大增强了系统的可解释性。
技术关键词
大语言模型
多模态
现实世界图像
仿真器
适配器
规划
数据
文本
图像风格迁移技术
自然语言
动态
特征提取网络
车辆
多层感知器
分词
分支
注意力
场景