AI资讯新闻榜单内容搜索-R1

一个模型超了DeepSeek R1、V3，参数671B，成本不到350万美元

Deep Cogito，一家鲜为人知的 AI 初创公司，总部位于旧金山，由前谷歌员工创立，如今开源的四款混合推理模型，受到大家广泛关注。

来自主题: AI资讯

8065 点击 2025-08-02 13:38

近期，随着OpenAI-o1/o3和Deepseek-R1的成功，基于强化学习的微调方法（R1-Style）在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现，但在通用多模态数据上的应用研究仍有待深入。

来自主题: AI技术研报

9172 点击 2025-08-01 16:08

近年来，OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制，强化学习使模型能够发展出可泛化的推理策略，在复杂问题上取得了监督微调难以企及的进展。

来自主题: AI技术研报

7065 点击 2025-07-31 10:10

当人工智能已经能下围棋、写代码，如何让机器理解并证明数学定理，仍是横亘在科研界的重大难题。

来自主题: AI技术研报

10868 点击 2025-07-30 11:01

在社交平台上，「AI 帮我选基金，结果赚了 8%」、「AI 自动炒股，秒杀巴菲特？」之类的帖子不时刷屏，炒股机器人、对话式理财助手有关的 Agent 也不断涌现。

来自主题: AI资讯

10912 点击 2025-07-28 17:48

新一代大型推理模型，如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5，在复杂推理方面取得了显著进展。该方向核心是一种名为 ZERO-RL 的训练方法，即采用可验证奖励强化学习（RLVR）逐步提升大模型在强推理场景 (math, coding) 的 pass@1 能力。

来自主题: AI技术研报

8135 点击 2025-07-28 10:36

现有Mobile/APP Agent的工作可以适应实时环境，并执行动作，但由于它们大部分都仅依赖于动作级奖励（SFT或RL）。

来自主题: AI技术研报

11813 点击 2025-07-21 12:25

基于Qwen2.5架构，采用DeepSeek-R1-0528生成数据，英伟达推出的OpenReasoning-Nemotron模型，以超强推理能力突破数学、科学、代码任务，在多个基准测试中创下新纪录！数学上，更是超越了o3!

来自主题: AI资讯

10212 点击 2025-07-20 23:43

AI做奥数的神话，刚刚被戳破了！最新出炉的2025 IMO数学竞赛中，全球顶尖AI模型无一例外翻车了。即便是冠军Gemini也只拿下可怜的31分，连铜牌都摸不到。Grok-4更是摆烂到底，连DeepSeek-R1都令人失望。看来，AI想挑战人类奥数大神，还为时尚早。

来自主题: AI资讯

8933 点击 2025-07-18 17:37

半年前，DeepSeek R1 的推出轰动了全球，无论东西方都是火的一塌糊涂，更是被外网称为 AI 领域的 Sputnik 时刻。

来自主题: AI资讯

10591 点击 2025-07-18 14:12