摘要
本发明提供鲁棒智能决策方法、装置及其电子设备,涉及人工智能技术领域。所述方法包括:确定目标环境的状态空间中当前状态;将所述当前状态输入值函数分布网络,得到所述值函数分布网络输出的多个逆累积分布函数值,所述逆累积分布函数值与指定分位数相对应;基于所述逆累积分布函数值确定所述当前状态的当前动态风险等级,将所述当前状态和所述当前动态风险等级输入策略网络,得到所述策略网络输出的动作概率分布;基于所述动作概率分布选择动作,根据所述动作确定在目标环境的状态空间中下一状态,所述下一状态为终止状态的情况下,完成智能决策,能够降低策略网络陷入局部最优的风险。