大语言模型的请求处理方法、装置、介质、设备及产品
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
大语言模型的请求处理方法、装置、介质、设备及产品
申请号:
CN202411119228
申请日期:
2024-08-14
公开号:
CN118916175A
公开日期:
2024-11-08
类型:
发明专利
摘要
本公开涉及一种大语言模型的请求处理方法、装置、介质、设备及产品,涉及机器学习技术领域,该方法通过获取发送至大语言模型的服务请求,并通过部署于第一图形处理器的大语言模型,对服务请求进行预填充处理,获得服务请求对应的预填充结果,并将预填充结果发送至第二图形处理器,以及通过部署于第二图形处理器的大语言模型,对预填充结果进行解码处理,获得服务请求对应的推理结果,可以将大语言模型的预填充阶段与解码阶段进行解耦,从而提高GPU资源的利用率以及提高大语言模型的服务吞吐量。
技术关键词
图形处理器
大语言模型
解码
调度器
机器学习技术
存储装置
电子设备
计算机程序产品
客户端
介质
阶段
模块
资源