
匿名论文提出奇招!增强大模型长文本能力居然还能这么做
匿名论文提出奇招!增强大模型长文本能力居然还能这么做来看一个奇妙新解:和长度外推等方法使用KV缓存的本质不同,它用模型的参数来存储大量上下文信息。
来自主题: AI技术研报
6394 点击 2024-02-02 16:12
来看一个奇妙新解:和长度外推等方法使用KV缓存的本质不同,它用模型的参数来存储大量上下文信息。
现在ChatGPT等大模型一大痛点:处理长文本算力消耗巨大,背后原因是Transformer架构中注意力机制的二次复杂度。
今天,Moonshot AI 带着首个支持输入 20 万汉字的智能助手产品Kimi Chat 与大家见面了。 据我们所知,这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度,标志着 Moonshot AI 在“长文本”这一重要技术上取得了世界领先水平。