一年后,DeepSeek-R1的每token成本降到了原来的1/32
一年后,DeepSeek-R1的每token成本降到了原来的1/32几天前,DeepSeek 毫无预兆地更新了 R1 论文,将原有的 22 页增加到了现在的 86 页。新版本充实了更多细节内容,包括首次公开训练全路径,即从冷启动、训练导向 RL、拒绝采样与再微调到全场景对齐 RL 的四阶段 pipeline,以及「Aha Moment」的数据化验证等等。
来自主题: AI技术研报
7389 点击 2026-01-10 17:02