MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力 MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力 关键词: Transformer,涌现,顿悟Grokking 过度训练让中度模型出现了结构泛化能力。 来自主题: AI资讯 5630 点击 2023-12-08 14:37