摘要
本申请公开了一种任务推理方法、装置及设备,涉及模型推理领域,包括:预设调度平台通过本地的域名服务器获取业务侧发送的推理任务,并基于预设负载均衡策略从本地的若干调度组中选择与推理任务对应的目标调度组,以及将推理任务发送至目标调度组;通过目标调度组中的目标调度中心基于推理任务从目标调度组中的处于空闲状态的工作节点中选取目标工作节点;通过目标工作节点获取目标调度中心分配的推理任务并基于大语言模型对推理任务进行推理以得到推理结果。本申请通过采用负载均衡策略快速将推理任务分配至相应的调度组,并通过调度组中的调度中心快速为推理任务分配相应的工作节点,完成对推理任务的推理,从而保证推理任务的时效性。