AI资讯新闻榜单内容搜索-语言模型

DeepSeek R1遇难题142次"I give up"，研究还称需增加推理时机控制机制

最新大语言模型推理测试引众议，DeepSeek R1常常在提供错误答案前就“我放弃”了？？ Cursor刚刚参与了一项研究，他们基于NPR周日谜题挑战（The Sunday Puzzle），构建了一个包含近600个问题新基准测试。

来自主题: AI技术研报

7247 点击 2025-02-14 17:41

Anthropic秘密「混合模型」 Claude 4首曝细节，硬刚GPT-5！深度推理模型来了

AI竞赛白热化！Anthropic秘密研发一种与众不同的AI——语言模型与可控推理能力相结合的混合模型。模型包括一个独特的「滑动条」功能，它赋予开发者对计算资源和成本前所未有的控制权。

来自主题: AI资讯

8339 点击 2025-02-14 16:22

AI意识更进一步！谷歌DeepMind等：LLM不仅能感受痛苦，还能趋利避害

以大语言模型为代表的AI在智力方面已经逐渐逼近甚至超过人类，但能否像人类一样有痛苦、快乐这样的感知呢？近日，谷歌团队和LSE发表了一项研究，他们发现，LLM能够做出避免痛苦的权衡选择，这也许是实现「有意识AI」的第一步。

来自主题: AI技术研报

7366 点击 2025-02-14 13:48

8卡32B模型超越o1预览版、DeepSeek V3，普林斯顿、北大提出层次化RL推理新范式

推理大语言模型（LLM），如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等，通过模拟人类推理过程，在多个专业领域已超越人类专家，并通过延长推理时间提高准确性。推理模型的核心技术包括强化学习（Reinforcement Learning）和推理规模（Inference scaling）。

来自主题: AI技术研报

7109 点击 2025-02-12 11:33

网传DeepSeek R1更容易被越狱？这有个入选顶会的防御框架SelfDefend

近日，来自香港科技大学、南洋理工大学等机构的研究团队最新成果让这一设想成为现实。他们提出的 SelfDefend 框架，让大语言模型首次拥有了真正意义上的 ' 自卫能力 '，能够有效识别和抵御各类越狱攻击，同时保持极低的响应延迟。

来自主题: AI技术研报

5605 点击 2025-02-11 14:48

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。R1 论文展示了如何使用 GRPO 从遵循 LLM（DeepSeek-v3）的基本指令转变为推理模型（DeepSeek-R1）。

来自主题: AI技术研报

7561 点击 2025-02-07 16:53

将集体学习引入树搜索，新方法CoMCTS实现o1-like的推理与反思

尽管多模态大语言模型（MLLM）在简单任务上最近取得了显著进展，但在复杂推理任务中表现仍然不佳。费曼的格言可能是这种现象的完美隐喻：只有掌握推理过程的每一步，才能真正解决问题。然而，当前的 MLLM 更擅长直接生成简短的最终答案，缺乏中间推理能力。本篇文章旨在开发一种通过学习创造推理过程中每个中间步骤直至最终答案的 MLLM，以实现问题的深入理解与解决。

来自主题: AI技术研报

7280 点击 2025-02-07 16:16