摘要
本发明涉及一种基于多智能体强化学习的导管装配顺序优化方法,属于质量与可靠性工程领域,其包括以下步骤:S1、基于导管装配引入多智能体强化学习框架,定义智能体及其状态空间;S2、定义智能体在状态空间内的动作空间;S3、定义智能体在各状态下采取指定动作对应的奖励函数,以及反映未来回报对当前决策影响程度的折扣因子;S4、定义各智能体在进行动作决策时的约束条件;S5、提出深度多智能体分层Q网络算法对导管装配顺序进行优化;S6、对导管装配位置优化方法进行验证。本发明提出了一种分层的深度多智能体Q网络算法,实现了装配顺序的优化,能够提升产品制造过程能力和质量的一致性和稳定性,为定量化技术支撑和决策提供依据。