分布式模型训练方法、系统和相关设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
分布式模型训练方法、系统和相关设备
申请号:CN202410940456
申请日期:2024-07-12
公开号:CN118898286A
公开日期:2024-11-05
类型:发明专利
摘要
本公开提供一种分布式模型训练方法、系统和相关设备,涉及计算机与互联网技术领域。该方法包括:将训练目标模型的训练集进行拆分,获得第一训练子集,第一训练子集包括多个第一迷你子集;第一训练节点通过第一迷你子集对目标模型进行梯度计算,获得第一梯度;第一训练节点从对应的CXL内存中获取第一梯度聚合变量;第一训练节点根据第一梯度对第一梯度聚合变量进行聚合更新,并将聚合更新后的第一梯度聚合变量刷新到第一训练节点对应的CXL内存中,其中CXL内存控制第一梯度聚合变量保持全局一致性;通过第一机架中的第一梯度聚合变量对目标模型的模型参数进行更新。本实施例提供的技术方案可以高效的完成对目标模型的分布式训练。
技术关键词
分布式模型 机架 变量 内存 计算机程序指令 训练集 分布式训练 训练系统 参数更新模块 可读存储介质 节点更新 互联网技术 存储器 处理器 电子设备 数据