
Llama架构比不上GPT2?神奇token提升10倍记忆?
Llama架构比不上GPT2?神奇token提升10倍记忆?近日,朱泽园 (Meta AI) 和李远志 (MBZUAI) 的最新研究《语言模型物理学 Part 3.3:知识的 Scaling Laws》用海量实验(50,000 条任务,总计 4,200,000 GPU 小时)总结了 12 条定律,为 LLM 在不同条件下的知识容量提供了较为精确的计量方法。
来自主题: AI资讯
4180 点击 2024-04-10 19:11