一种模型推理服务优化方法及相关装置

申请号：CN202511154991

申请日期：2025-08-18

公开号：CN121008918A

公开日期：2025-11-25

类型：发明专利

摘要

本申请公开了一种模型推理服务优化方法及相关装置，涉及人工智能领域，能够根据推理请求中的模型版本参数，确定出模型版本。首先根据表征推理请求的请求标识，从缓存中确定是否存在和请求标识相对应的推理结果数据，优先从缓存中进行推理结果数据的查找，减少大量重复推理请求对大模型的负担，提高推力请求的处理效率。在确定出缓存中未存在相对应的推理结果数据时，根据负载均衡策略从目标模型实例的各服务节点中确定出目标服务节点，并将推理请求发送至目标服务节点进行处理，目标模型实例为模型版本所表征的模型实例。实现对推理请求处理的均衡分配，能够有效减少节点资源的过载或浪费的现象，进而有效模型的服务效率。

技术关键词

服务优化方法负载均衡策略节点服务发现机制电子设备数据标识计算机存储介质存储计算机程序调度算法参数优化装置处理器队列存储器模块推力负担指标周期