一种PER-自适应探索深度强化学习TSP/CVRP优化方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种PER-自适应探索深度强化学习TSP/CVRP优化方法
申请号:CN202511012459
申请日期:2025-07-22
公开号:CN120874955A
公开日期:2025-10-31
类型:发明专利
摘要
本发明涉及物流与供应链管理技术领域,具体为一种PER‑自适应探索深度强化学习TSP/CVRP优化方法,包括以下步骤:S1、构建包含节点特征、车辆状态及循环神经网络隐藏状态的状态空间,定义选择下一跳节点的离散动作空间;S2、利用循环神经网络编码历史路径序列的时序依赖关系,结合注意力机制生成聚焦关键节点信息的上下文向量;S3、采用优先经验回放机制,根据时序差分误差计算样本优先级,按优先级比例采样经验样本并引入重要性采样权重修正偏差;S4、实施两阶段自适应探索策略,根据训练阶段与智能体成功率动态调整探索率;S5、基于加权损失函数优化深度Q网络参数,实现旅行商问题与带容量约束车辆路径问题的求解。
技术关键词
深度强化学习 加权损失函数 时序依赖关系 两阶段 深度Q网络 修正偏差 供应链管理技术 路径优化系统 节点特征 注意力机制 神经网络单元 退火策略 样本 误差 控制模块