摘要
本发明提供一种基于强化学习的对抗博弈策略实时优化方法和系统,获取历史博弈态势特征;实时捕捉目标对象的动态运动参数数据,以生成物理动态向量;将物理动态向量输入至预置实时数据压缩电路进行高维信号处理,生成低维电学响应信号;关联分析预设的待优化对抗博弈策略的历史决策特征与历史博弈态势特征,生成策略演化特征;融合策略演化特征和低维电学响应信号的时序连续性特征,生成动态对抗环境状态数据;将动态对抗环境状态数据输入至预设的强化学习模型中,生成优化后的对抗博弈策略。本发明实现了物理运动数据到决策策略的跨领域协同闭环,突破了传统博弈策略优化的响应延迟瓶颈,确保了对抗策略随目标对象运动状态毫秒级更新。