摘要
本发明提供基于强化学习的车辆路径规划方法及装置,涉及数据处理技术领域,方法包括:将t时间步的状态向量输入至第一模型中,获取第一样本动作对应的第一预期收益值;选取目标第一样本动作,更新得到t+1时间步的状态向量;将t+1时间步的状态向量输入至第二模型中,获取多个第二样本动作以及对应的第二预期收益值;基于第二预期收益值确定目标预期收益值,基于目标预期收益值、目标第一样本动作对应的第一预期收益值确定训练损失,基于训练损失更新第一模型的参数;在多个时间步后基于第一模型的参数对第二模型的参数进行软更新;基于训练完成后的第一模型的输出数据得到车辆路径规划结果。本发明可以提高车辆路径规划的鲁棒性。