一种无人夹抱车强化学习规控算法的评价网络设计方法

申请号：CN202510103088

申请日期：2025-01-22

公开号：CN120046690A

公开日期：2025-05-27

类型：发明专利

摘要

本发明公开了一种无人夹抱车强化学习规控算法的评价网络设计方法，本发明通过高质量离线正样本融入评价网络的训练过程中，加速强化学习规控算法收敛并减少试错探索时间以提升作业效率；同时构建专门的评价网络融合层，依据离线正样本可信度与在线训练可信度动态调整权重，将离线正样本信息与在线训练特征融合，充分挖掘其有效作业策略，增强评价网络准确性与稳定性，最终实现整个强化学习规控算法性能的显著提升，有效推动无人夹抱车在复杂物流环境中的高效、精准作业。

技术关键词

网络设计方法样本夹抱车作业场景离线融合策略在线算法序列训练特征融合网络基础架构作业策略优化器数据参数计算误差训练集