摘要
本发明提出一种基于强化学习的TSP路径组合优化方法及系统,通过将解分布学习与组合优化目标学习相结合,构建了一种各向异性的图神经网络作为扩散模型的骨干网络,利用其表示能力捕捉图结构数据中的复杂关系,利用扩散模型单转马尔可夫前向过程建模概率分布。此外,本发明还引入了两种扩散模型的加速采样方法DDIM和DPM‑solver,加速去噪的采样过程,提高训练效率。本发明能够通过将直接偏好优化引入到扩散模型中进而提出偏好引导组合优化((Preference‑GuidedCombinatorial Optimization,PGCO),提高求解旅行商问题(TSP)模型的泛化能力和适应性,提供了一个更高效、高质量的求解大规模组合优化的模型。