大语言模型推理加速方法、装置、设备及介质

申请号：CN202511250810

申请日期：2025-09-03

公开号：CN121031794A

公开日期：2025-11-28

类型：发明专利

摘要

本申请公开一种大语言模型推理加速方法、装置、设备及介质，涉及模型加速技术领域，该方法包括：获取输入序列；基于输入序列，通过预训练语言模型的解码头获取第一预测token集合；基于输入序列，通过至少一个新增解码头并行获取至少一个后续预测token集合；基于第一预测token集合和至少一个后续预测token集合，生成所有候选token序列；基于输入序列，将每个候选token序列输入至预训练语言模型，计算每个候选token序列在预训练语言模型中的输出概率；基于输出概率及与每个候选token序列中对应预测位置相关联的新增解码头的预测概率，从所有候选token序列中确定目标输出序列。

技术关键词

预训练语言模型序列码头大语言模型特征提取模块加速装置处理器动态存储器笛卡尔可读存储介质指标电子设备网络计算机策略算法