摘要
本申请提供了一种基于在线结构剪枝的文本推理方法以及相关设备,方法包括:在接收到文本推理任务时,获取未进行剪枝的文本推理模型,以及获取文本推理模型中多个解码层基于目标结构化剪枝算法进行剪枝时生成的掩模信息和算法参数信息;针对文本推理模型中的每个解码层,分别根据对应的掩模信息对解码层进行权重掩模处理,以及根据对应的算法参数信息对解码层进行输出补偿处理,得到目标剪枝模型;通过目标剪枝模型执行文本推理任务,得到文本推理结果,其中,本申请可以在推理时基于掩模信息和算法参数信息在线生成结构化剪枝的目标剪枝模型,无需保存结构化剪枝后的模型,能够有效降低文本推理方法的存储开销。