一种基于高斯过程预测的非零和多玩家博弈的Q-学习方法

申请号：CN202410737136

申请日期：2024-06-07

公开号：CN118732502A

公开日期：2024-10-01

类型：发明专利

摘要

本发明公开了一种基于高斯过程预测的非零和多玩家博弈的Q‑学习方法，属于机器学习和自动控制技术领域，具体涉及一种结合高斯过程预测和脱策略交错Q‑学习方法，具体步骤如下：步骤一，建立一个包含随机扰动的多玩家非零和博弈问题模型；步骤二，求解非零和博弈纳什均衡解的强化学习方法；步骤三，高斯过程预测模型建模方法；步骤四，脱策略交错Q‑学习方法。本发明的优点效果是提供一种能够在存在随机干扰的环境中稳定且有效地求解多玩家非零和博弈问题的强化学习算法，提高系统的整体性能和稳定性，本方法能够适应环境的动态变化，有效处理因随机干扰引起的不确定性，为多玩家博弈问题的解决提供了一种新的技术途径。

技术关键词

玩家模型建模方法强化学习方法控制策略矩阵超参数强化学习算法自动控制技术定义访问系统数据噪声方程规划动态