基于多机多卡的模型分布式训练效率测试系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多机多卡的模型分布式训练效率测试系统
申请号:CN202510383373
申请日期:2025-03-28
公开号:CN120429634A
公开日期:2025-08-05
类型:发明专利
摘要
本发明提供一种基于多机多卡的模型分布式训练效率测试系统,该系统包括测试管理中台、多机多卡环境构建模块、测试需求匹配模块、策略匹配模块、模型训练测试模块和训练效率评估模块;多机多卡环境构建模块构建不同网络环境下的多机多卡环境;测试需求匹配模块匹配得到目标模型和目标数据集;策略匹配模块匹配得到目标并行策略组合;模型训练测试模块基于每个多机多卡环境利用目标并行策略组合和目标数据集进行分布式训练,获取每个多机多卡环境下的指标数据;训练效率评估模块基于指标数据评估每个网络环境的多机多卡环境下目标并行策略组合对目标模型的训练效率的影响结果。本发明提高了模型在分布式训练中的训练效率的评估准确性。
技术关键词
并行策略 分布式训练 效率测试系统 节点 效率测试方法 匹配模块 网络拓扑 测试模块 数据 指标 模型库 规模 序列 布局 计算机 矩阵