鲁棒智能决策方法、装置及其电子设备

申请号：CN202510271217

申请日期：2025-03-07

公开号：CN120218170A

公开日期：2025-06-27

类型：发明专利

摘要

本发明提供鲁棒智能决策方法、装置及其电子设备，涉及人工智能技术领域。所述方法包括：确定目标环境的状态空间中当前状态；将所述当前状态输入值函数分布网络，得到所述值函数分布网络输出的多个逆累积分布函数值，所述逆累积分布函数值与指定分位数相对应；基于所述逆累积分布函数值确定所述当前状态的当前动态风险等级，将所述当前状态和所述当前动态风险等级输入策略网络，得到所述策略网络输出的动作概率分布；基于所述动作概率分布选择动作，根据所述动作确定在目标环境的状态空间中下一状态，所述下一状态为终止状态的情况下，完成智能决策，能够降低策略网络陷入局部最优的风险。

技术关键词

累积分布函数智能决策方法网络策略动态条件风险价值轨迹非暂态计算机可读存储介质智能决策装置电子设备人工智能技术处理器模块存储器