大语言模型的加速推理方法和计算设备

申请号：CN202411899191

申请日期：2024-12-20

公开号：CN119783729A

公开日期：2025-04-08

类型：发明专利

摘要

本申请涉及数据处理技术，特别涉及大语言模型的加速推理方法、实施该方法的计算设备、非瞬时计算机可读存储介质和计算机程序产品。按照本申请的一个方面，提供一种大语言模型的加速推理方法，其中，所述大语言模型包含多个以级联方式连接的子层，所述子层为多头注意力层或前馈神经网络层，所述方法包括：A、利用动态稀疏优化器，为每个子层确定相应的稀疏度；B、利用稀疏化的子层来处理推理请求，其中，稀疏化的方式为：对于每个子层，利用与该子层相关联的动态稀疏预测器，基于该子层的稀疏度和与输入该子层的前一子层的上下文来确定需要激活的注意力头或神经元并且激活所确定的注意力头或神经元。

技术关键词

大语言模型推理方法注意力级联方式优化器神经网络模型计算机程序产品动态规划算法分治算法可读存储介质数据处理技术指令贪心算法处理器通信校准存储器