摘要
一种异构网络算力控制的近端策略优化方法及系统,包括:基于异构网络算力控制场景,设置行为网络和评价网络的初始参数,构建存储训练数据的经验缓冲区,加载异构网络终端的轨迹数据,设置每个异构网络终端的计算参数,通过线性衰减规则调整裁剪值;由行为网络根据输入的当前状态数据生成策略,输出选择最大概率的动作作为算力分配方案,并以最大化累积奖励为目标,构建行为网络的目标函数;利用评价网络对分配方案中执行的动作进行价值评估,以最小化状态值函数的预测误差为目标构建评价网络的目标函数;根据算力分配方案在异构网络终端执行方案,并结合方案完成后的能耗、执行时间和方案质量计算奖励,将训练数据存储到经验缓冲区中。