摘要
本申请公开了一种基于强化学习的负载均衡方法、装置、电子设备及介质,涉及分布式系统领域,方法包括:接收并响应请求指令,根据请求指令获取系统的当前时刻状态信息,并基于状态‑动作价值对应信息、离散动作集和当前时刻状态信息确定预期累计奖励值集合,然后基于预期累计奖励值集合和预设限制条件确定目标动作,在确定目标动作之后,根据目标动作确定目标节点,以便目标节点响应请求。由此,该方法通过动态奖励机制和强化学习进行流量调度实时决策和节点的动态选择,解决了静态负载均衡在突发流量下响应滞后与局部过载的技术问题,达到了全局自适应负载均衡的技术效果。