摘要
本发明提供一种大语言模型推理的调度方法、装置及电子设备,其中方法包括:确定大语言模型执行推理任务的多个微批次;将大语言模型中每一层的参数权重按照微批次数量划分为多个权重页;执行推理任务的各微批次,并在每一个微批次执行的同时,预取预设数量个后续微批次执行所需的权重页,并将预取的权重页存储至GPU内存。在执行各微批次时预取后续微批次权重页并存储至GPU内存,基于预取的权重页进行微批次处理过程,避免了整个大语言模型的参数权重一次性整体加载至GPU,减少因权重加载导致的计算等待时间,减少了内存占用,避免不必要的数据传输与存储,提升了基于大语言模型的任务处理效率。