一种基于分布式KV缓存池的大语言模型推理方法

申请号：CN202510631153

申请日期：2025-05-16

公开号：CN120654778A

公开日期：2025-09-16

类型：发明专利

摘要

本发明公开了一种基于分布式KV缓存池的大语言模型推理方法。该方法针对平台接受大量用户发送的需要大语言模型服务的请求，将用户的请求和集群中的机器进行相应的建模，然后利用相应的策略进行处理。此外，还考虑到集群中机器资源的使用情况，优先考虑资源空闲多的机器。这种方式在一定程度上减少了资源竞争所带来的干扰。与此同时，通过将众多NPU卡的内存进行抽象成一个分布式KV缓存池的方式，方便处理请求时进行弹性伸缩。通过该方法能够构建基于大语言模型的高效集群，相应的平台能够更好理解用户的需求和意图，以提供更加及时和个性化的服务。

技术关键词

推理方法调度器大语言模型集群队列调度策略分发器抢占式调度负载均衡策略结点解析器阶段一台计算机推理装置资源预留动态更新网络模块节点