一种面向自动驾驶场景的状态受限离线强化学习控制方法

申请号：CN202511022067

申请日期：2025-07-24

公开号：CN120930714A

公开日期：2025-11-11

类型：发明专利

摘要

本发明公开了一种面向自动驾驶场景的状态受限离线强化学习控制方法，包括以下步骤：(1)基于多模态融合感知技术构建车辆行驶数据集并进行数据预处理。(2)使用预处理后的数据训练前向动力学、逆动力学和奖励模型，同时构建演员‑评论家框架的策略网络和价值网络，训练过程中，计算状态之间的可达关系，用于指导策略学习和价值评估。(3)构建基于实时车辆状态感知的策略网络在线推理模块，采用策略梯度优化算法生成连续控制动作并获取动作执行后的状态转移矩阵，将转移数据存入经验回放缓冲区，定期通过优先经验回放策略对网络模型参数迭代优化，实现驾驶策略的进化。

技术关键词

强化学习控制方法网络逆动力学模型车辆行驶数据策略生成动作交通信号灯状态识别交通标志三维环境模型生成点云数据定义多模态传感器参数强化学习模型激光雷达离线随机梯度下降加速度