摘要
本发明提供了一种基于混合精度的端边云多级推理方法,包括:量化感知步骤,实时监控推理任务的当前计算需求和当前资源状态,根据所述当前计算需求和所述当前资源状态选择对应的计算精度,所述精算精度包括低精度、中精度、高精度和/或混合精度;混合精度计算步骤,若所述推理任务对应的是所述混合精度,将所述推理任务拆分为多个子任务;流水线并行步骤,根据每个所述子任务的计算需求,将多个所述子任务分配到对应的计算节点进行流水线并行处理。本发明还提供一种基于混合精度的端边云多级推理装置、存储介质及电子设备。借此,本发明能够实现计算精度、计算资源之间的平衡,并能实现多级推理的高效协同处理,降低处理延迟并提升计算吞吐量。