后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发 后训练中的RL已死?MIT新算法挑战传统后训练思维,谢赛宁转发 关键词: AI新闻,模型训练,RandOpt,人工智能 在当前的 LLM 开发中,后训练阶段通常被视为赋予模型特定能力的关键环节。传统的观点认为,模型必须通过强化学习(如 PPO、GRPO 或 RLHF)和进化策略(ES)等算法,在反复的迭代和梯度优化过程中调整权重,才能在特定任务上达到理想的性能。 来自主题: AI技术研报 5745 点击 2026-03-16 14:26