谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙 谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙 关键词: AI,模型训练,RLFT,微调 该研究对 LLM 常见的失败模式贪婪性、频率偏差和知 - 行差距,进行了深入研究。 来自主题: AI技术研报 7793 点击 2025-05-06 09:23