摘要
公开了一种模型训练方法及装置,涉及云计算技术领域。该模型训练方法包括:在第一工作节点和至少一个第二工作节点协同对模型进行训练的过程中,第一工作节点保存的检查点文件仅为完整的模型所利用的数据中的部分数据,且,第一工作节点和至少一个第二工作节点分别保存的检查点文件综合后可得到完整的模型所利用的数据。若第一工作节点在对模型进行训练过程中数据丢失,则第一工作节点获取第二工作节点存储的包含B个子数据的检查点文件中的部分或全部。进而,第一工作节点仅保存完整的模型所利用的数据中的部分数据,减小了保存的数据量,从而减少了保存所需耗时,提高了对模型进行训练的效率。