一种结合深度强化学习和启发式算法的旅行商问题求解方法

申请号：CN202411127945

申请日期：2024-08-16

公开号：CN119106778A

公开日期：2024-12-10

类型：发明专利

摘要

本发明提出一种结合深度强化学习和启发式算法的旅行商问题求解方法，包括：将学习改进启发式算法求解旅行商问题的任务定义为一个马尔可夫决策过程；设计一个基于Transformer的新模型M，使策略网络参数化，并引入一个动作丢弃机制来防止动作选择过拟合；提出一个结合模拟退火机制的深度强化学习方法(RL‑SA)来学习节点对操作算子的选择策略以实现改进2‑opt算法的性能；RL‑SA利用鲸鱼优化算法生成初始解来提高采样效率，并使用高斯扰动策略来解决强化学习中的稀疏奖励问题。本发明在TSPLIB数据集和真实的集装箱班轮航运数据集上均显著优于现有的基于学习的方法，并进一步缩小了与高度优化求解器之间的差距。

技术关键词

启发式算法策略网络模型鲸鱼优化算法模拟退火算法 Softmax函数位置更新解码器注意力深度强化学习方法矩阵编码器节点特征强化学习算法螺旋式参数序列机制

系统为您推荐了相关专利信息

基于数字工厂的生产控制方法及系统

混合整数规划模型比例积分微分控制器均衡控制器频繁子图挖掘统一数据结构

一种小目标鸟群运动监测系统

运动监测系统图像特征向量可见光图像激光雷达点云数据顶点

一种多模态数据融合的实时语义分割与目标检测联合模型

多模态数据融合语义互补特征多任务损失函数融合特征

基于多源数据的人员定位方法及系统

定位子系统多源定位数据定位方法坐标位置更新

一种基于XGBoost模型和模拟退火算法的热解效率预测方法

XGBoost模型效率预测方法模拟退火算法线性回归模型多项式