摘要
本申请提出基于深度强化学习的电子负载拉载电流调节方法。基于强化学习架构,将电子负载拉载电流的调节过程模拟成一个马尔可夫决策过程,以拉载电流的高频时序信号作为环境状态,由智能体求解最优的MOS管栅极电压调节量序列;智能体选择多尺度跳转可分离卷积神经网络模型;将智能体预测的MCU调节量施加到电子负载后,根据实际电流跟目标电流的差值建立调节量奖励值,通过智能体多步调节建立训练数据集;基于对拉载电流的影响程度对奖励值序列施加权重建立奖励目标函数,基于梯度下降算法以奖励目标函数值最大为目标优化智能体参数。本申请提出的深度强化学习方法无需给训练样本打标签,减少人工参与,提高学习效率。