摘要
本发明提供一种基于强化学习的桥梁群维修优先级动态决策方法及装置,涉及桥梁智慧维护技术领域。该方法包括:构建桥梁网络与道路的拓扑结构;定义桥梁的状态空间、维修动作空间以及状态转移矩阵;定义桥梁的状态对应的可靠度指标,基于拓扑结构,设计基于维修成本、资产风险和交通网络容量损失风险的综合奖励函数;构建桥梁维修决策问题;将桥梁维修决策问题描述为马尔科夫决策过程,采用指针网络建立指针网络策略模型,采用Actor‑Critic算法对指针网络策略模型进行训练,获得基于强化学习的维修决策模型;对基于强化学习的维修决策模型进行训练直至收敛,输出在有限约束下桥梁维修动作排序。采用本发明可解决传统单一桥梁评估的局限性问题。