一种基于NARX模型的大模型训练慢节点检测方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于NARX模型的大模型训练慢节点检测方法
申请号:CN202410864138
申请日期:2024-06-30
公开号:CN118586473A
公开日期:2024-09-03
类型:发明专利
摘要
本发明公开了一种基于NARX模型的大模型训练慢节点检测方法,包括:模型的准备,通过实际的训练获取一个NARX模型;模型的应用,通过使用训练好的模型对实际训练过程中的节点进行检测,发现异常,并根据模型的实际情况进行自动化处理。本发明通过节点参数面和存储面网卡的input和ouput数据训练一个对应框架和模型的NARX模型,然后将训练好的NARX模型用于分布式模型训练中,通过对训练过程中各节点多网卡数据的实时检测,进行网络异常发现,进而预测节点异常,并根据模型训练的实际情况对异常节点进行处理,提升慢节点的发现时间和定位,最终提升大模型的训练效率,降低因节点异常导致的重复训练等卡时浪费,当流量出现异常第一时间就能识别到。
技术关键词
NARX模型 节点检测方法 网卡 时间序列数据库 分布式模型 神经网络参数 任务调度 仓库 框架 时序