大语言模型的请求处理方法、装置、介质、设备及产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大语言模型的请求处理方法、装置、介质、设备及产品
申请号:CN202411119228
申请日期:2024-08-14
公开号:CN118916175A
公开日期:2024-11-08
类型:发明专利
摘要
本公开涉及一种大语言模型的请求处理方法、装置、介质、设备及产品,涉及机器学习技术领域,该方法通过获取发送至大语言模型的服务请求,并通过部署于第一图形处理器的大语言模型,对服务请求进行预填充处理,获得服务请求对应的预填充结果,并将预填充结果发送至第二图形处理器,以及通过部署于第二图形处理器的大语言模型,对预填充结果进行解码处理,获得服务请求对应的推理结果,可以将大语言模型的预填充阶段与解码阶段进行解耦,从而提高GPU资源的利用率以及提高大语言模型的服务吞吐量。
技术关键词
图形处理器 大语言模型 解码 调度器 机器学习技术 存储装置 电子设备 计算机程序产品 客户端 介质 阶段 模块 资源