摘要
本发明公开了一种强化学习计算模拟方法、装置、电子设备及存储介质,涉及人工智能计算技术领域,包括将已确定的当前模型参数配置、当前硬件配置和当前工作负载输入至目标模拟系统得到多个并行分组组合,根据当前硬件配置确定目标模拟系统,基于预设的蒙特卡洛方法,从多个并行分组组合中确定有效并行分组组合,并输入至预设的神经网络模型的模拟器,通过模拟器根据有效并行分组组合进行延迟时间计算,且将最短延迟时间对应的组合作为目标并行分组组合,解决了模拟场景不匹配、精度不足、缺乏对异构集群有效支持的技术问题,通过高精度的性能建模和自动化探索,提供可靠的性能预测和最优并行策略建议,从而降低大规模GRPO训练的资源消耗。