摘要
本发明公开了一种基于多智能体深度强化学习的交通信号优化方法,属于交通信号控制技术领域,包括如下步骤:根据车辆运行数据对车辆进行追踪和轨迹仿真,并构建城市交通仿真模型及各交叉口的交通信号灯对应的强化智能学习体;构建上下文增强状态空间,并对上下文状态空间中的特征参数进行归一化处理,并组合得到实时交通环境状态向量;计算得到拥堵指数自适应奖励;根据启发式奖励塑形方法,定义流量匹配度指标和指示信号周期位置奖励,并结合拥堵指数自适应奖励,得到交通信号优化奖励;根据交通信号优化奖励,采用多智能体双深度Q网络训练强化智能学习体控制交通信号相位切换。本发明解决了复杂场景下交通信号控制灵活性和效率不足的问题。