摘要
本发明公开了一种面向边缘云的分布式模型训练时间评估方法及装置,包括:将深度学习模型处理负载的流程分为数据移动阶段、模型计算阶段和通信阶段;收集分布式集群的关键特征及不同深度学习模型的模型特征,确认每个特征的数据代表值,交叉组合数据代表值分别测量三个阶段的负载时间开销,构建组合特征实验样本;为每个阶段的负载时间开销建模,获取深度学习模型训练任务的负载时间评估模型;构建误差函数,以最小化误差函数为目标利用非负最小二乘法求解负载时间评估模型的参数;将负载时间评估模型的参数代入,利用更新后的负载时间评估模型对接收到的任务的负载时间开销进行评估。本发明通过通用层级建模,解决深度学习模型的异构性问题。