摘要
本公开涉及一种模型服务的扩缩容方法、装置、设备及存储介质。预测未来词元负载,未来词元负载用于表征与未来一段时间内的全部请求对应的输入词元数量和/或输出词元数量;基于未来词元负载和模型服务的当前词元生成速度,确定扩缩容策略,扩缩容策略指示了对模型服务包括的当前服务实例数量进行增加或缩减的数量;按照扩缩容策略对模型服务包括的当前服务实例数量进行增加或缩减。本公开在对模型服务进行扩缩容时充分考虑了请求特性,从而可以提升资源分配的精细程度。并且,本公开能够针对未来负载提前进行资源分配,因此可以提前应对即将到来的请求高峰或低谷。