摘要
本发明公开了一种基于分离式架构的分布式训练数据加载方法和装置,属于计算机技术领域,方法包括:远程中心调度器响应本地数据加载客户端发送的请求,收集训练样本的数据元信息并进行负载均衡计算生成数据加载计划和数据消费计划;远程数据加载服务器获取数据加载计划进行数据加载和数据预处理,得到预处理后的分布式训练数据,并预取下一个批次的数据;本地数据加载客户端根据数据消费计划向指定的远程数据加载服务器请求获取预处理后的分布式训练数据并缓存在本地。本发明不仅提升了分布式训练数据加载的效率,还保证了分布式训练中各计算节点的计算负载的均衡性,适用于大规模深度学习模型的分布式训练场景,具有较高的应用价值和推广前景。