摘要
本申请公开一种推理方法、系统、计算机设备及存储介质。所述方法应用于包括中央处理单元CPU、图形处理单元GPU和现场可编程门阵列FPGA的目标系统,包括以下步骤:响应于目标推理服务的请求,CPU将目标推理服务的目标输入传到GPU;GPU基于大语言模型的网络结构和权重参数对目标输入进行预填充阶段的计算,得到包括预填充阶段的中间计算结果和最终计算结果的第一数据,并将其传到CPU;CPU将第一数据传到FPGA;FPGA基于大语言模型的网络结构、权重参数和第一数据进行解码阶段的计算,得到第二数据将其传到CPU;CPU将第二数据作为目标推理服务的输出。本申请能够将目标推理服务分阶段部署到GPU和FPGA,通过协作运行的方式完成目标推理服务,充分利用GPU和FPGA的硬件资源。