PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍
PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍这两天,FlashAttention团队推出了新作: 一种给Transformer架构大模型推理加速的新方法,最高可提速8倍。 该方法尤其造福于长上下文LLM,在64k长度的CodeLlama-34B上通过了验证
来自主题: AI技术研报
3110 点击 2023-10-18 14:43
这两天,FlashAttention团队推出了新作: 一种给Transformer架构大模型推理加速的新方法,最高可提速8倍。 该方法尤其造福于长上下文LLM,在64k长度的CodeLlama-34B上通过了验证