摘要
本发明公开了面向复杂道路场景的自适应自动驾驶模型的训练方法及系统,其中方法包括:对多个一级自动驾驶模型进行训练,不同模型的奖励函数对应不同的训练策略倾向;对训练好的多个一级自动驾驶模型进行综合评分,筛选出综合评分最高的三个模型作为专家模型;对二级自动驾驶模型进行训练,将训练集中的数据输入三个专家模型,再将三个专家模型的输出带入二级自动驾驶模型的奖励函数进行计算,在与专家示范动作保持相对一致的情形下受到更少惩罚,若偏离示范动作则会在奖励层面受到更大扣减,经过训练后的二级自动驾驶模型的策略向专家模型的示范动作靠拢。本发明可提高自动驾驶的多场景适应性,丰富决策候选空间,同时缩短训练周期并降低难度。