摘要
本发明公开一种面向自动驾驶决策控制的高精地图人在回路方法及系统,方法包括:获取高精地图;根据获取的高精地图,对车辆智能体强化学习循环中的一或多个阶段进行人在回路支持;其中,所述人在回路介入包括:对强化学习循环中的可观测状态阶段通过高精地图感知内容信息进行感知内容扩展,对强化学习循环中动作阶段通过高精地图路径规划信息进行动作干涉,和/或对强化学习循环中奖励阶段通过高精地图规则约束进行奖励函数塑造。本发明通过将高精地图信息中获取的高精地图特征嵌入强化学习训练循环中,可以最大程度上发挥人在回路方法的辅助作用,实现自动驾驶决策控制性能的提升。