摘要
本申请提供应用于边缘设备的推理加速方法、装置及电子设备。本申请通过将预训练模型的权重矩阵N个权重子块,将预训练模型的激活矩阵划分为M个激活子块,以对预训练模型中权重子块以及该权重子块对应的激活子块进行量化处理,得到目标模型;若至少两个权重子块的量化位宽相同,则基于该至少两个权重子块对应的权重值量化超参以及各权重子块对应的激活子块对应的激活值量化超参,将该至少两个权重子块作为一个整体进行量化处理。其中,将相同量化位宽的权重子块以及对应的激活子块进行了整体处理,在加载这些子块时,内存访问模式从随机跳变变换为顺序读写,同时对权重值和激活值进行了量化,提高了模型的推理速度,降低了模型占用的存储空间。