摘要
本发明计算机数据处理技术领域,公开了一种业务服务器和专用服务器调度方法,包括:初始化深度强化学习智能体;将智能体与环境进行交互,获取环境反馈奖励和新状态;将智能体与环境交互的转移数据存入经验池并进行采样;基于采样数据计算目标Q值和损失函数,更新网络参数;根据预设条件进行策略优化与模型部署;本发明采用深度强化学习框架,通过智能体与环境的持续交互和学习,能够自适应地理解业务特征和服务器状态的动态变化,实现智能化的调度决策,同时设置了多维度的状态空间和奖励函数,综合考虑处理效率、资源利用率、服务延迟和负载均衡等多个性能指标。