面向大语言模型训练的集群监控方法以及相关装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
面向大语言模型训练的集群监控方法以及相关装置
申请号:CN202411828164
申请日期:2024-12-12
公开号:CN119271505B
公开日期:2025-09-26
类型:发明专利
摘要
本申请涉及数据处理领域,尤其是一种面向大语言模型训练的集群监控方法以及相关装置。该方法包括:获取目标对象的原始运行数据;目标对象为专用集成电路TPU集群中的一个或多个TPU节点;TPU节点用于加速大语言模型的训练任务和推理任务;将原始运行数据转换为目标对象的待处理硬件信息;待处理硬件信息的转换方式基于TPU集群中待监测的多个指标维度配置得到;根据待处理硬件信息生成实时展示信息,并实时更新到监控面板中进行展示;实时展示信息至少包括:TPU集群对应的硬件监控信息以及计算状态信息。该方法能够实现TPU集群的实时监控,提升集群监控效率,以及集群监控系统的拓展性和灵活性。
技术关键词
大语言模型 集群监控方法 监控面板 告警规则 对象 节点 数据接口 指标 序列 集群监控系统 场景 集成电路 计算机 芯片 内存 端点 标签