模型服务的扩缩容方法、装置、设备及存储介质

申请号：CN202410836296

申请日期：2024-06-26

公开号：CN118708349A

公开日期：2024-09-27

类型：发明专利

摘要

本公开涉及一种模型服务的扩缩容方法、装置、设备及存储介质。预测未来词元负载，未来词元负载用于表征与未来一段时间内的全部请求对应的输入词元数量和/或输出词元数量；基于未来词元负载和模型服务的当前词元生成速度，确定扩缩容策略，扩缩容策略指示了对模型服务包括的当前服务实例数量进行增加或缩减的数量；按照扩缩容策略对模型服务包括的当前服务实例数量进行增加或缩减。本公开在对模型服务进行扩缩容时充分考虑了请求特性，从而可以提升资源分配的精细程度。并且，本公开能够针对未来负载提前进行资源分配，因此可以提前应对即将到来的请求高峰或低谷。

技术关键词

时序预测模型非暂时性机器可读存储介质策略处理器资源分配速度指标计算机程序产品电子设备决策数据时间段模块存储器