摘要
本申请公开了一种模型推理服务优化方法及相关装置,涉及人工智能领域,能够根据推理请求中的模型版本参数,确定出模型版本。首先根据表征推理请求的请求标识,从缓存中确定是否存在和请求标识相对应的推理结果数据,优先从缓存中进行推理结果数据的查找,减少大量重复推理请求对大模型的负担,提高推力请求的处理效率。在确定出缓存中未存在相对应的推理结果数据时,根据负载均衡策略从目标模型实例的各服务节点中确定出目标服务节点,并将推理请求发送至目标服务节点进行处理,目标模型实例为模型版本所表征的模型实例。实现对推理请求处理的均衡分配,能够有效减少节点资源的过载或浪费的现象,进而有效模型的服务效率。