摘要
本申请公开了一种大语言模型的量化方法、推理方法及电子设备,属于大语言模型技术领域,本申请实施例的大语言模型的量化方法包括:针对大语言模型中待量化的每个线性层,将所述线性层在隐层维度上的通道划分为正常通道和离群通道;对所述正常通道对应的第一激活矩阵在分词token维度进行INT8量化得到第二激活矩阵,以及对所述正常通道对应的第一权重矩阵按输出通道进行INT4量化得到第二权重矩阵;根据所述第二激活矩阵、所述第二权重矩阵、所述离群通道对应的第三激活矩阵和所述离群通道对应的第三权重矩阵确定所述线性层的输出结果。