摘要
本发明公开了一种基于强化学习的传输路径选择方法及装置、电子设备,涉及大数据技术领域,其中,该方法包括:获取目标网络拓扑中各节点传输的节点状态信息和链路状态信息,基于节点状态信息和链路状态信息生成路由选择动作,基于节点状态信息、链路状态信息以及对应的路由选择动作,采用强化学习代理中心更新目标Q值表;在接收到新的路由传输请求后,基于更新后的目标Q值表,采用强化学习代理中心为当前网络节点选择目标数据传输路径,其中,目标数据传输路径用于完成新的路由传输请求中数据包的路由传输。本发明解决了相关技术中的静态路由算法缺乏灵活性,无法根据网络拓扑和流量变化进行实时调整的技术问题。