摘要
本发明公开了一种基于分布式KV缓存池的大语言模型推理方法。该方法针对平台接受大量用户发送的需要大语言模型服务的请求,将用户的请求和集群中的机器进行相应的建模,然后利用相应的策略进行处理。此外,还考虑到集群中机器资源的使用情况,优先考虑资源空闲多的机器。这种方式在一定程度上减少了资源竞争所带来的干扰。与此同时,通过将众多NPU卡的内存进行抽象成一个分布式KV缓存池的方式,方便处理请求时进行弹性伸缩。通过该方法能够构建基于大语言模型的高效集群,相应的平台能够更好理解用户的需求和意图,以提供更加及时和个性化的服务。