一种模型训练方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种模型训练方法及装置
申请号:CN202410798950
申请日期:2024-06-18
公开号:CN120654775A
公开日期:2025-09-16
类型:发明专利
摘要
公开了一种模型训练方法及装置,涉及云计算技术领域。该模型训练方法包括:在第一工作节点和至少一个第二工作节点协同对模型进行训练的过程中,第一工作节点保存的检查点文件仅为完整的模型所利用的数据中的部分数据,且,第一工作节点和至少一个第二工作节点分别保存的检查点文件综合后可得到完整的模型所利用的数据。若第一工作节点在对模型进行训练过程中数据丢失,则第一工作节点获取第二工作节点存储的包含B个子数据的检查点文件中的部分或全部。进而,第一工作节点仅保存完整的模型所利用的数据中的部分数据,减小了保存的数据量,从而减少了保存所需耗时,提高了对模型进行训练的效率。
技术关键词
检查点文件 节点 数据 云管理平台 模型训练方法 字段 模型训练装置 存储模块 云计算技术 计算机程序产品 指令 接口 集群 参数 可读存储介质 存储器 处理器