摘要
本发明涉及计算机技术领域,公开了一种推理服务管理方法、设备、介质及计算机程序产品,包括:接收语言模型对话,利用负载均衡器将对话转发至相应的推理服务副本;在语言模型推理服务运行时,利用推理服务伸缩组件统计推理服务副本在设定周期内的吞吐量数据;当吞吐量数据超过设定吞吐量阈值时,通过推理服务伸缩组件向推理服务资源调度器发送扩容通知信号,以使推理服务资源调度器进行推理服务扩容,得到扩容副本;利用负载均衡器配置扩容副本的地址。这样将语言模型服务中的吞吐量作为进行服务扩容、负载均衡选择时的依据,当吞吐量超过阈值时触发语言模型推理服务的扩容,进而最优化分配使用资源,能够提高资源利用率和完善用户体验。