基于3D并行与分布式参数服务器的异步训练方法、装置及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于3D并行与分布式参数服务器的异步训练方法、装置及存储介质
申请号:CN202510207798
申请日期:2025-02-25
公开号:CN120278212A
公开日期:2025-07-08
类型:发明专利
摘要
本发明涉及一种基于3D并行与分布式参数服务器的异步训练方法、装置及存储介质。该方法中参数服务器节点的训练流程包括:S101,初始化全局模型权重,全局模型权重分布于多个参数服务器节点上;S102,接收当前的本地模型权重,本地模型权重的初始化通过预选的3D并行训练方法实现,本地模型权重的更新通过各个训练任务执行预设时间长度的本地训练实现;S103,基于本地模型权重,更新当前的全局模型权重;S104,将全局模型权重下发至训练任务,并返回S102。与现有技术相比,本发明具有提高分布式模型训练对于异构设备集群的适用性,同时保证在处理万卡级别集群时的训练效率与稳定性等优点。
技术关键词
分布式参数服务器 服务器节点 并行训练方法 两阶段提交协议 分布式模型 集群 异构设备 策略更新 训练装置 程序 存储器 处理器 脚本