摘要
本发明公开了一种注意力机制动态稀疏与量化方法、系统、设备及介质,它们是相对应的方案,方案中:通过块粒度的聚类算法,对输入向量序列进行重排,得到聚合语义信息的块粒度的向量序列簇,将每个簇的聚类中心作为代表元计算出每个簇的注意力分数,基于注意力分数筛选出重要度高的聚类块得到块粒度的稀疏掩码,在注意力计算内核中根据该掩码选择性读入需要计算的向量序列块,之后对读入的向量序列块进行逐块的数据平滑操作,并通过进行对称量化。上述方案在保证模型精度的条件下得到利于任务均匀划分同时避免计算和带宽资源浪费的硬件友好的稀疏结构,从而节约计算与带宽资源,并减少注意力机制模块的计算量,进而提高视频生成模型推理的效率。