摘要
本发明提供一种基于多机多卡的模型分布式训练效率测试系统,该系统包括测试管理中台、多机多卡环境构建模块、测试需求匹配模块、策略匹配模块、模型训练测试模块和训练效率评估模块;多机多卡环境构建模块构建不同网络环境下的多机多卡环境;测试需求匹配模块匹配得到目标模型和目标数据集;策略匹配模块匹配得到目标并行策略组合;模型训练测试模块基于每个多机多卡环境利用目标并行策略组合和目标数据集进行分布式训练,获取每个多机多卡环境下的指标数据;训练效率评估模块基于指标数据评估每个网络环境的多机多卡环境下目标并行策略组合对目标模型的训练效率的影响结果。本发明提高了模型在分布式训练中的训练效率的评估准确性。