基于多级缓存机制的大模型推理方法、系统、电子设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多级缓存机制的大模型推理方法、系统、电子设备及存储介质
申请号:CN202511348777
申请日期:2025-09-22
公开号:CN120851217A
公开日期:2025-10-28
类型:发明专利
摘要
本申请提供了基于多级缓存机制的大模型推理方法、系统、电子设备及存储介质,涉及计算机技术领域。其中,基于多级缓存机制的大模型推理方法包括:接收原始请求;基于各个实例的键值缓存分布和负载情况,确定原始请求对应的预填充实例和解码实例;通过预填充实例,基于三级缓存机制确定原始请求多个键值缓存块;基于键值缓存块,执行预填充阶段的计算,得到预填充阶段的首个输出标记;通过解码实例,基于预填充阶段的首个输出标记和键值缓存块进行解码阶段的计算,得到原始请求对应的完整输出标记;基于完整输出标记,确定原始请求的推理结果。由此,能够大幅提高了前缀缓存的命中率,有效缓解了负载不均衡的问题。
技术关键词
键值 多级缓存机制 序列 解码 缓冲块 标记 内存 推理方法 阶段 显卡 时延 生成哈希值 编码 异步方式 标识 磁盘 调度器 集群 电子设备