摘要
本发明提供一种列车自动运行控制方法、装置、设备、存储介质及产品,该方法包括:将当前列车运行状态输入策略网络,得到控制动作概率分布;将控制动作概率分布输入MPC控制器,预测未来列车运行状态和输出数据;将未来列车运行状态和输出数据输入值函数网络,得到在当前状态下采取各个可行动作的累计回报估计值;基于累计回报估计值和控制目标对控制动作概率分布进行优化,得到优化后的控制动作概率分布,以调整列车的控制动作,实现列车运行控制。本发明通过将策略网络和值函数网络整合到MPC控制器中,可以将学习到的控制策略应用到列车的实时运行中,实现最优的列车运行效果,提高列车运行舒适性、控制精度和鲁棒性。