推理服务管理方法、设备、介质及计算机程序产品

申请号：CN202510025516

申请日期：2025-01-08

公开号：CN119415273A

公开日期：2025-02-11

类型：发明专利

摘要

本发明涉及计算机技术领域，公开了一种推理服务管理方法、设备、介质及计算机程序产品，包括：接收语言模型对话，利用负载均衡器将对话转发至相应的推理服务副本；在语言模型推理服务运行时，利用推理服务伸缩组件统计推理服务副本在设定周期内的吞吐量数据；当吞吐量数据超过设定吞吐量阈值时，通过推理服务伸缩组件向推理服务资源调度器发送扩容通知信号，以使推理服务资源调度器进行推理服务扩容，得到扩容副本；利用负载均衡器配置扩容副本的地址。这样将语言模型服务中的吞吐量作为进行服务扩容、负载均衡选择时的依据，当吞吐量超过阈值时触发语言模型推理服务的扩容，进而最优化分配使用资源，能够提高资源利用率和完善用户体验。

技术关键词

服务管理方法负载均衡器副本资源调度器标识符非易失性存储介质计算机程序产品吞吐量性能测试创建语言模型服务管理设备节点统计语言模型集群处理器存储计算机程序关系通知实时数据