摘要
本申请涉及数据处理领域,尤其是一种面向大语言模型训练的集群监控方法以及相关装置。该方法包括:获取目标对象的原始运行数据;目标对象为专用集成电路TPU集群中的一个或多个TPU节点;TPU节点用于加速大语言模型的训练任务和推理任务;将原始运行数据转换为目标对象的待处理硬件信息;待处理硬件信息的转换方式基于TPU集群中待监测的多个指标维度配置得到;根据待处理硬件信息生成实时展示信息,并实时更新到监控面板中进行展示;实时展示信息至少包括:TPU集群对应的硬件监控信息以及计算状态信息。该方法能够实现TPU集群的实时监控,提升集群监控效率,以及集群监控系统的拓展性和灵活性。