多参与人资源分配的策略搜索方法、装置、设备和介质

申请号：CN202411717492

申请日期：2024-11-27

公开号：CN119623639A

公开日期：2025-03-14

类型：发明专利

摘要

本申请属于策略搜索技术领域，涉及多参与人资源分配的策略搜索方法、装置、设备和介质。方法包括：获取多参与人资源分配场景并建模马尔可夫模型，得到状态的期望函数值向量；构建近似纳什均衡，以作为状态的期望函数值向量的约束条件；建立策略在时间步的更新规则，并建立参与人在策略的效用函数，得到策略的迭代方式；对策略的迭代方式进行简化并求解，得到均衡解；根据均衡解，计算每个参与人的目标值函数，计算近似纳什均衡的响应；结合状态的期望函数值向量，得到状态值函数；以最小化损失函数为目标，对策略进行迭代搜索，直至停止，输出当前的策略，作为马尔可夫模型的最优解。本申请能够准确快速地搜索策略。

技术关键词

策略搜索方法资源分配马尔可夫模型模仿学习方法采取行动纳什均衡策略策略搜索装置场景搜索技术团队处理器计算机设备输出模块信息熵可读存储介质装备存储器因子