算力集群内故障图形处理芯片确定方法、装置及电子设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
算力集群内故障图形处理芯片确定方法、装置及电子设备
申请号:CN202411882091
申请日期:2024-12-19
公开号:CN119759628B
公开日期:2025-10-03
类型:发明专利
摘要
本公开提供了一种算力集群内故障图形处理芯片确定方法、装置及电子设备,涉及生成式大语言模型、图形处理芯片、算力集群、集合通信操作等技术领域。该方法包括:分别获取与构成算力集群的每个GPU对应的已执行集合通信操作数、通道编号和当前执行的集合通信操作的执行状态信息;对具有相同的通道编号的各GPU,基于相应的已执行集合通信操作数和执行状态信息,确定第一诊断结果;汇总属于同一通信组的各通道分别对应的第一诊断结果,确定第二诊断结果;汇总属于同一训练任务的各通信组分别对应的第二诊断结果,确定目标诊断结果;基于目标诊断结果确定影响当前的训练任务正常执行的故障GPU。该方法可以准确定位导致训练任务hang的故障GPU。
技术关键词
图形处理芯片 层级 通道 集群 诊断模块 定位单元 数据 电子设备 大语言模型 计算机程序产品 处理器通信 指令 可读存储介质 存储器