基于强化学习的车辆路径规划方法及装置

申请号：CN202511285720

申请日期：2025-09-10

公开号：CN120800422B

公开日期：2025-11-21

类型：发明专利

摘要

本发明提供基于强化学习的车辆路径规划方法及装置，涉及数据处理技术领域，方法包括：将t时间步的状态向量输入至第一模型中，获取第一样本动作对应的第一预期收益值；选取目标第一样本动作，更新得到t+1时间步的状态向量；将t+1时间步的状态向量输入至第二模型中，获取多个第二样本动作以及对应的第二预期收益值；基于第二预期收益值确定目标预期收益值，基于目标预期收益值、目标第一样本动作对应的第一预期收益值确定训练损失，基于训练损失更新第一模型的参数；在多个时间步后基于第一模型的参数对第二模型的参数进行软更新；基于训练完成后的第一模型的输出数据得到车辆路径规划结果。本发明可以提高车辆路径规划的鲁棒性。

技术关键词

车辆路径规划方法样本车辆路径规划装置非暂态计算机可读存储介质参数处理器数据处理技术计算机程序产品输出模块存储器鲁棒性序列电子设备规模机制