一种面向自动驾驶场景的状态受限离线强化学习控制方法
申请号:CN202511022067
申请日期:2025-07-24
公开号:CN120930714A
公开日期:2025-11-11
类型:发明专利
摘要
本发明公开了一种面向自动驾驶场景的状态受限离线强化学习控制方法,包括以下步骤:(1)基于多模态融合感知技术构建车辆行驶数据集并进行数据预处理。(2)使用预处理后的数据训练前向动力学、逆动力学和奖励模型,同时构建演员‑评论家框架的策略网络和价值网络,训练过程中,计算状态之间的可达关系,用于指导策略学习和价值评估。(3)构建基于实时车辆状态感知的策略网络在线推理模块,采用策略梯度优化算法生成连续控制动作并获取动作执行后的状态转移矩阵,将转移数据存入经验回放缓冲区,定期通过优先经验回放策略对网络模型参数迭代优化,实现驾驶策略的进化。
技术关键词
强化学习控制方法
网络
逆动力学模型
车辆行驶数据
策略
生成动作
交通信号灯状态
识别交通标志
三维环境模型
生成点云数据
定义
多模态传感器
参数
强化学习模型
激光雷达
离线
随机梯度下降
加速度