KV Cache终于不用无脑全留了!百度&复旦用「投资回报率」重新分配缓存|ICML 2026
KV Cache终于不用无脑全留了!百度&复旦用「投资回报率」重新分配缓存|ICML 2026随着AI Coding、Agent、Deep Research 等应用快速普及,模型单次处理的上下文长度正在从几万Token迈向几十万甚至百万Token。
来自主题: AI技术研报
9012 点击 2026-06-15 09:18
搜索
随着AI Coding、Agent、Deep Research 等应用快速普及,模型单次处理的上下文长度正在从几万Token迈向几十万甚至百万Token。