一种基于策略复用的多智能体强化学习交通信号控制方法
申请号:CN202411129211
申请日期:2024-08-16
公开号:CN119107801A
公开日期:2024-12-10
类型:发明专利
摘要
本发明提供一种基于策略复用的多智能体强化学习交通信号控制方法,属于交通信号控制技术领域。通过步骤:构建智能体通用EDLight模型;基于现有TOD场景对通用路网模型进行训练,并存储已学习环境模型;计算未知TOD目标环境和预训练任务环境的相似度;基于所述相似度,选择相似环境的预训练模型来指导目标智能体模型进行决策,并基于概率采样更新目标域模型,实现自主决策。实现了为未知目标网络模型选择最优策略,从而实现了智能体强化学习模型能够在路网中和跨路网迁移。解决了现有模型对交通信号控制迁移能力不足的问题。
技术关键词
交通信号控制方法
策略
智能体模型
编码器
交通信号控制技术
决策
动态变化模型
邻居
特征信息融合
解码器
强化学习模型
路口特征
预训练模型
交通信号灯
预测特征
周期
场景
注意力机制
网络架构