
10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文实锤涌现
10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文实锤涌现不到10美元,3B模型就能复刻DeepSeek的顿悟时刻了?来自荷兰的开发者采用轻量级的RL算法Reinforce-Lite,把复刻成本降到了史上最低!同时,微软亚研院的一项工作,也受DeepSeek-R1启发,让7B模型涌现出了高级推理技能。
来自主题: AI技术研报
5922 点击 2025-02-22 15:50
不到10美元,3B模型就能复刻DeepSeek的顿悟时刻了?来自荷兰的开发者采用轻量级的RL算法Reinforce-Lite,把复刻成本降到了史上最低!同时,微软亚研院的一项工作,也受DeepSeek-R1启发,让7B模型涌现出了高级推理技能。