摘要
本申请公开一种大语言模型推理加速方法、装置、设备及介质,涉及模型加速技术领域,该方法包括:获取输入序列;基于输入序列,通过预训练语言模型的解码头获取第一预测token集合;基于输入序列,通过至少一个新增解码头并行获取至少一个后续预测token集合;基于第一预测token集合和至少一个后续预测token集合,生成所有候选token序列;基于输入序列,将每个候选token序列输入至预训练语言模型,计算每个候选token序列在预训练语言模型中的输出概率;基于输出概率及与每个候选token序列中对应预测位置相关联的新增解码头的预测概率,从所有候选token序列中确定目标输出序列。