AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号 AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号 关键词: AI ,模型训练,Intuitor,人工智能 复刻DeepSeek-R1的长思维链推理,大模型强化学习新范式RLIF成热门话题。 来自主题: AI技术研报 8030 点击 2025-05-29 15:10