摘要
本申请提供了一种训推一体机多任务协同调度方法及系统,基于实时推理任务的延迟容忍度对实时推理任务进行资源抢占式调度,调度完成后实时监测程序执行容器中流处理器的显存状态,通过显存状态和待分配任务的资源需求特征确定模型训练显存分配的可信区间;通过执行任务的延迟容忍度和模型训练任务的训练优先级对模型训练任务的资源需求进行冗余性调节,得到模型训练任务资源调度需求的协同代价;当资源调度需求的协同代价在可信区间内时,基于显存分配的可信区间对模型训练任务进行协同调度。基于上述方案可实现训推一体机中推理任务和训练任务的混合调度。