基于中间层解码的大语言模型加速处理方法、装置

申请号：CN202410854936

申请日期：2024-06-28

公开号：CN118396044A

公开日期：2024-07-26

类型：发明专利

摘要

本申请涉及大语言模型技术领域，公开了一种基于中间层解码的大语言模型加速处理方法、装置，通过选取LLaMA2‑7B模型作为预训练的大语言模型，增加一个与最后一层Loss相加的中间层Loss分支，中间层能够获得接近最后一层的生成能力。在处理过程中，每个Token由中间层生成，并与最后一层的高质量输出Token进行比较验证，确保生成文本的质量。如果中间层生成的Token与最后一层相同，则加入生成文本序列；如果不同，则重新生成Token。该方法能够提前进入解码计算，减少生成延迟，加速处理过程，同时能够避免引入额外的推测模型，降低内存和计算资源占用，适用于硬件资源受限的环境。

技术关键词

中间层大语言模型分支解码文本参数阶段模块序列代表框架内存速度受限