推理服务管理方法、设备、介质及计算机程序产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
推理服务管理方法、设备、介质及计算机程序产品
申请号:CN202510025516
申请日期:2025-01-08
公开号:CN119415273A
公开日期:2025-02-11
类型:发明专利
摘要
本发明涉及计算机技术领域,公开了一种推理服务管理方法、设备、介质及计算机程序产品,包括:接收语言模型对话,利用负载均衡器将对话转发至相应的推理服务副本;在语言模型推理服务运行时,利用推理服务伸缩组件统计推理服务副本在设定周期内的吞吐量数据;当吞吐量数据超过设定吞吐量阈值时,通过推理服务伸缩组件向推理服务资源调度器发送扩容通知信号,以使推理服务资源调度器进行推理服务扩容,得到扩容副本;利用负载均衡器配置扩容副本的地址。这样将语言模型服务中的吞吐量作为进行服务扩容、负载均衡选择时的依据,当吞吐量超过阈值时触发语言模型推理服务的扩容,进而最优化分配使用资源,能够提高资源利用率和完善用户体验。
技术关键词
服务管理方法 负载均衡器 副本 资源调度器 标识符 非易失性存储介质 计算机程序产品 吞吐量性能测试 创建语言模型 服务管理设备 节点 统计语言模型 集群 处理器 存储计算机程序 关系 通知 实时数据