摘要
本发明提供一种端到端自动驾驶模型训练方法及装置,端到端自动驾驶模型训练方法及装置包括采集车辆的运行参数,基于“演员‑评论家”框架建立自动驾驶模型,采用融合自适应参数空间噪声的DDPG算法,对DDPG算法中的评论家网络和演员网络的参数进行初始化;选择Adam优化器并初始化经验回放池,存储智能体与环境交互的经验,设置初始学习率以及确定批量大小;使用经验回放池中的经验更新评论家网络和演员网络的参数;调整自动驾驶车辆的性能,本发明提供的端到端自动驾驶模型训练方法及装置,该方法通过调整至适当的学习率以及批量大小,加速模型的收敛速度,对超参数中学习率以及批量大小进行调整,使模型在训练过程中更加稳定。