摘要
本申请属于策略搜索技术领域,涉及多参与人资源分配的策略搜索方法、装置、设备和介质。方法包括:获取多参与人资源分配场景并建模马尔可夫模型,得到状态的期望函数值向量;构建近似纳什均衡,以作为状态的期望函数值向量的约束条件;建立策略在时间步的更新规则,并建立参与人在策略的效用函数,得到策略的迭代方式;对策略的迭代方式进行简化并求解,得到均衡解;根据均衡解,计算每个参与人的目标值函数,计算近似纳什均衡的响应;结合状态的期望函数值向量,得到状态值函数;以最小化损失函数为目标,对策略进行迭代搜索,直至停止,输出当前的策略,作为马尔可夫模型的最优解。本申请能够准确快速地搜索策略。