摘要
本发明涉及GPU资源管理技术领域,公开了一种GPU算力弹性调度和优化方法。该方法先采集GPU集群包含计算核心利用率、显存占用率等多维度实时运行状态数据组成状态序列,再根据负载分布划分动态单元并分组得到调度子序列;接着获取各调度子序列的负载波动指标,以及算力分配差异和时序差异,从而计算资源波动系数;然后构建关联矩阵并分解,得到特征值序列的核心成分占比和关联指数,进而算出调度稳定指数;最后基于该指数确定动态分配基准调整量,实现GPU算力的弹性调度与优化。该方法综合多维度数据与多类指标,能精准评估集群状态,提升算力资源利用率与集群性能,适用于多种应用场景。