摘要
本申请公开了一种深度神经网络加速推理方法、装置及存储介质。本申请方法包括:对标准数据集进行预处理,使用训练集训练深度神经网络模型;记录每层神经元或连接的权重分布以及L1范数;基于训练过程中记录的权重分布和L1范数,确定神经元或连接的重要性数值;按照预设比例剪除重要性数值低于预设的重要性阈值的神经元或连接,并在每次剪枝后动态调整深度神经网络模型的结构;确定量化位宽以及量化上下限值;对剪枝后的深度神经网络模型,基于量化位宽和量化上下限值,对权重和激活值进行假量化处理基于假量化后的结果,计算任务损失和量化误差损失,并更新全精度权重;使用联合损失函数优化模型参数。