摘要
本申请涉及数据处理技术,特别涉及大语言模型的加速推理方法、实施该方法的计算设备、非瞬时计算机可读存储介质和计算机程序产品。按照本申请的一个方面,提供一种大语言模型的加速推理方法,其中,所述大语言模型包含多个以级联方式连接的子层,所述子层为多头注意力层或前馈神经网络层,所述方法包括:A、利用动态稀疏优化器,为每个子层确定相应的稀疏度;B、利用稀疏化的子层来处理推理请求,其中,稀疏化的方式为:对于每个子层,利用与该子层相关联的动态稀疏预测器,基于该子层的稀疏度和与输入该子层的前一子层的上下文来确定需要激活的注意力头或神经元并且激活所确定的注意力头或神经元。