摘要
本申请公开了一种模型部署方法、装置、设备、存储介质和产品,涉及多元异构计算系统技术领域,依据混合专家模型的分布式推理任务信息以及异构计算系统的性能信息,确定出每个专家模型在其对应的异构计算节点上执行推理任务的总耗时。基于负载均衡原则,对所有专家模型的总耗时、通信耗时和计算耗时进行分析,以确定出压缩倍率;按照模型压缩策略对各专家模型进行迭代压缩,以得到满足误差要求以及满足压缩倍率要求的各压缩后的专家模型。将各压缩后的专家模型部署在对应的异构计算节点。通过对专家模型进行压缩,并且基于压缩倍率确定专家模型的压缩程度,从而使不同异构算力在专家运算层的计算耗时尽量均衡,提升了硬件资源的利用率。