摘要
本发明提供一种基于深度强化学习的无人车规划方法及装置,方法包括:获取待测网络性能信息和待测观测状态信息;将待测网络性能信息和待测观测状态信息输入至无人车调度预测模型中,得到无人车调度预测模型输出的无人搬运车的预测动作;其中,无人车调度预测模型是基于经验回放池中的训练样本数量达到第一预设数量后、从经验回放池中选择第二预设数量的训练样本进行优化训练得到的,经验回放池中的训练样本是根据对应时间步数的历史观测状态、历史网络性能信息、基于历史观测状态选择的历史动作以及执行所选历史动作后基于历史网络性能信息得到的下一历史观测状态和历史奖励得到的。本发明能确保及时捕捉状态变化,提高了动作预测的准确性。