
新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度
新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度Lightning Attention-2 是一种新型的线性注意力机制,让长序列的训练和推理成本与 1K 序列长度的一致。
来自主题: AI技术研报
2000 点击 2024-01-18 18:27
Lightning Attention-2 是一种新型的线性注意力机制,让长序列的训练和推理成本与 1K 序列长度的一致。