业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10 业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10 关键词: AI,模型训练,DeepSeek-R1-Zero,SRPO OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明,大规模强化学习已成为一种极为有效的方法,能够激发大型语言模型(LLM) 的复杂推理行为并显著提升其能力。 来自主题: AI技术研报 6757 点击 2025-04-23 14:04