摘要
本发明公开了一种自动驾驶策略生成方法及装置,属于自动驾驶策略生成技术领域,方法包括获取车辆当前时刻的状态和动作,以及人类反馈数据;将获取的数据输入到训练好的改进强化学习算法中,得到最优自动驾驶策略;改进之处包括:在强化学习算法中策略网络的目标函数中引入行为克隆项;训练包括:基于行为克隆权重缩放的离线训练,以及,基于行为克隆权重动态衰减和隐式奖励的在线训练,离线训练所使用的训练数据为专家先验数据。本发明通过使用专家先验数据,使策略网络在初步探索时拥有一个良好的策略以降低对人类反馈数据的要求;通过引入行为克隆项和对行为克隆权重进行缩放,提高训练优化速度;通过离线训练和在线训练的结合提高训练速度。