基于大语言模型的请求处理方法、装置、设备以及计算机存储介质
申请号:CN202510773580
申请日期:2025-06-11
公开号:CN120892173A
公开日期:2025-11-04
类型:发明专利
摘要
本申请公开了基于大语言模型的请求处理方法、装置、设备以及计算机存储介质。所述请求处理方法包括:基于用户端的请求的文本长度和大语言模型的参数量计算请求负载;判断请求负载是否大于或等于预设阈值;若请求负载大于或等于预设阈值,则分发至第一服务器处理,得到第一目标结果和Key‑Value缓存;将Key‑Value缓存更新至缓存数据库,并且将第一目标结果发送至所述用户端。本申请通过将Key‑Value缓存从服务节点中解耦至远程的缓存数据库系统,实现了计算与存储的分离,避免缓存冗余,提升了缓存复用率和一致性管理效率。
技术关键词
大语言模型
服务器
计算机存储介质
数据库系统
存储计算机程序
解码
文本
动态更新
处理单元
处理器
参数
冗余
进程
存储器
标识
节点
序列