一种基于分布式KV缓存池的大语言模型推理方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于分布式KV缓存池的大语言模型推理方法
申请号:CN202510631153
申请日期:2025-05-16
公开号:CN120654778A
公开日期:2025-09-16
类型:发明专利
摘要
本发明公开了一种基于分布式KV缓存池的大语言模型推理方法。该方法针对平台接受大量用户发送的需要大语言模型服务的请求,将用户的请求和集群中的机器进行相应的建模,然后利用相应的策略进行处理。此外,还考虑到集群中机器资源的使用情况,优先考虑资源空闲多的机器。这种方式在一定程度上减少了资源竞争所带来的干扰。与此同时,通过将众多NPU卡的内存进行抽象成一个分布式KV缓存池的方式,方便处理请求时进行弹性伸缩。通过该方法能够构建基于大语言模型的高效集群,相应的平台能够更好理解用户的需求和意图,以提供更加及时和个性化的服务。
技术关键词
推理方法 调度器 大语言模型 集群 队列调度策略 分发器 抢占式调度 负载均衡策略 结点 解析器 阶段 一台计算机 推理装置 资源预留 动态更新 网络 模块 节点