摘要
本申请提供了一种大模型训推一体机的异构资源智能调度方法及系统,初始化训推一体机中各个异构资源节点的维护任务列表,根据所有的维护任务列表生成维护任务的资源调度的成本矩阵;从资源调度的成本矩阵的调度成本中筛选出各个异构资源节点的最小成本特征,进而确定各个异构资源节点在目标任务发生分配冲突时的松弛变量;根据各个最小成本特征和目标任务的负载特征确定目标任务对各个异构资源节点的调度负荷成本;使用各个调度负荷成本对目标任务进行异构资源分配,在每次异构资源分配中发生任务分配冲突时,使用各个松弛变量对目标任务进行资源再分配。基于上述方案可实现资源调度中发生任务分配冲突时的资源再分配。