摘要
本申请公开一种针对多车强化学习的决策方法、装置、存储介质及设备,包括:为基于多车强化学习模型控制的每个车辆分配优先级指数;按照优先级指数从高到低的顺序遍历每个车辆;针对遍历的当前车辆,获取多车强化学习模型输出的第i时间步内的探索性动作,判断当前车辆与其他车辆在第i时间步内是否存在碰撞风险;若不存在,则将第i时间步内的探索性动作作为当前车辆在第i时间步内的实际动作;否则基于当前车辆在第i时间步处的安全裕度,从有效动作集合中筛选出当前车辆在第i时间步内的实际动作;将i+1后获得新的i,并返回执行获取第i时间步内探索性动作的步骤,直至确定当前车辆在预设时间范围内每个时间步的实际动作后,继续遍历下一车辆。