3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成 3B超越DeepSeek,大模型终于理解时间了!Time-R1一统过去/未来/生成 关键词: AI,模型训练,Time-R1,人工智能 Time-R1通过三阶段强化学习提升模型的时间推理能力,其核心是动态奖励机制,根据任务难度和训练进程调整奖励,引导模型逐步提升性能,最终使3B小模型实现全面时间推理能力,超越671B模型。 来自主题: AI技术研报 5983 点击 2025-06-09 15:54