摘要
本发明涉及人工智能、深度学习技术领域,用于通过人工智能平台对深度学习模型、机器学习模型或大语言模型推理时的资源占用情况进行监控,并进行资源调节,以降低了服务器资源负载。本发明提供一种基于人工智能平台的目标模型的推理加速方法及设备,所述方法包括:在所述目标模型的推理过程中,获取所述多个步骤中每个步骤对应的硬件资源占用数据,以及所述每个步骤对应的设定负载阈值;在所述多个步骤中存在至少一个目标步骤的情况下,扩展所述目标步骤对应的实例,所述目标步骤为对应的所述硬件资源占用数据大于对应的所述设定负载阈值的步骤。