摘要
本发明涉及智能应急救援技术领域,尤其是指基于强化学习的应急救援方案生成方法、系统及装置,所述方法包括:S1:获取受灾现场的所有伤员数据和可支配救援车辆数据;S2:将所述伤员数据和所述可支配救援车辆数据作为救援状态输入到强化学习模型中,基于伤员生存概率构建奖励函数,以最大化所述奖励函数的值为目标进行迭代训练,得到训练后的强化学习模型;S3:基于所述训练后的强化学习模型,输入当前救援状态,得到奖励值最大的动作,即最佳伤员救援方案。本发明不仅能够提高救援效率,减少伤亡,还能够优化资源配置,减轻救援人员的工作负担,对于提升应急救援的整体水平具有重要意义。