摘要
本发明提供一种基于动态调整奖励机制的训练方法,应用于对抗课程学习的多无人机,包括:获取第一方无人机和第二方无人机;在第一方无人机和第二方无人机进行攻击课程学习的情况下,根据预设的多智能体近端策略优化算法确定第一方无人机和所述第二方无人机中的攻击奖励配置的第一参数;在第一方无人机和第二方无人机进行防御课程学习的情况下,根据多智能体近端策略优化算法确定第一方无人机和所述第二方无人机中的防御奖励配置的第二参数;在第一方无人机和所述第二方无人机进行对抗课程学习的情况下,根据多智能体近端策略优化算法确定第一方无人机的平衡奖励配置的第三参数;基于第一参数、第二参数、第三参数确定目标奖励配置参数。