摘要
本文描述了压缩基于注意力的神经网络的计算机实施方法和用于压缩基于注意力的神经网络的处理系统。基于注意力的神经网络包括注意力层。注意力层被布置成根据键矩阵、查询矩阵和值矩阵来实施注意力函数。注意力层被配置成使用键权重矩阵来确定键矩阵,使用查询权重矩阵来确定查询矩阵,且使用值权重矩阵来确定值矩阵。确定与键权重矩阵、查询权重矩阵和值权重矩阵具有相同大小和形状的组合矩阵。对于组合矩阵的每个元素:(i)如果键权重矩阵、查询权重矩阵和值权重矩阵的对应元素为零,那么组合矩阵的元素被确定为零,且(ii)如果键权重矩阵、查询权重矩阵和值权重矩阵的对应元素中的至少一个为非零的,那么组合矩阵的元素被确定为非零的。