摘要
本发明涉及分层强化学习技术领域,公开了基于边权建模的图分层强化学习方法、终端及存储介质。该方法从下层缓冲池的轨迹数据中随机采样得到第一候选节点集,从上层缓冲池的轨迹数据中随机采样得到第二候选节点集,在候选节点集中选取若干目标节点形成图结构节点集合;针对图结构节点集合中的任意两个节点,分别计算状态转移边权、能量距离边权和神经网络预测边权,将三种边权进行加权融合以计算总边权值;当两个节点间的总边权值不小于预设阈值时,保留对应的边并在该边中加入总边权值,形成具备语义边权的图结构,将图结构应用于分层强化学习的策略训练与路径规划。本发明提升了图结构的代表性和全局性,图结构具备更强的表达能力和可解释性。