一种基于人类偏好强化学习的端到端自动驾驶控制系统及设备

申请号：CN202411114237

申请日期：2024-08-14

公开号：CN119018181B

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了一种基于人类偏好强化学习的端到端自动驾驶控制系统及设备，在预训练阶段，使用CARLA模拟器中采集的数据，基于横摆角速度和现有奖励函数真值进行奖励函数的神经网络模型预训练，为奖励函数模型提供一定的先验知识，有助于加速模型的收敛过程。在奖励函数学习阶段，采用人类偏好以修正和优化奖励函数，通过奖励预测值和实际偏好的交叉熵损失并在损失函数中加入L2正则化，以确保学习行为更贴近人类决策，并防止奖励黑客现象，从而实现自动驾驶系统的决策与人类价值观的对齐。在智能体学习阶段，利用PPO算法和多通道BEV作为环境输入，结合油门开度与转角的向量输出进行实时训练，确保了自动驾驶系统的实时响应性和安全性。

技术关键词

自动驾驶系统神经网络模型横摆角速度驾驶控制系统人类多通道刹车踏板变速器档位代表模拟器语义驾驶设备序列策略编码决策传播算法轨迹交通灯