AI资讯新闻榜单内容搜索-推理模型

推理模型其实无需「思考」？伯克利发现有时跳过思考过程会更快、更准确

当 DeepSeek-R1、OpenAI o1 这样的大型推理模型还在通过增加推理时的计算量提升性能时，加州大学伯克利分校与艾伦人工智能研究所突然扔出了一颗深水炸弹：别再卷 token 了，无需显式思维链，推理模型也能实现高效且准确的推理。

来自主题: AI技术研报

8941 点击 2025-04-19 14:39

谷歌首款混合推理Gemini 2.5登场，成本暴降600%！思考模式一开，直追o4-mini

谷歌发布首款混合推理模型Gemini 2.5 Flash，引入了革命性「思考预算」，可灵活控制推理深度，性能一举击败Claude 3.7，比肩o4-mini。而且，关闭思考模式成本直降600%。

来自主题: AI资讯

11315 点击 2025-04-18 10:48

UC伯克利：让推理模型少思考，准确率反而更高了！

让推理模型不要思考，得到的结果反而更准确？

来自主题: AI技术研报

9342 点击 2025-04-18 09:34

142页重磅，DeepSeek-R1的"甜蜜点"，开创了一个崭新的研究领域“思维学”。 | 最新

这是一份142页的研究论文，本文深入解析了大型推理模型DeepSeek-R1如何通过"思考"解决问题。研究揭示了模型思维的结构化过程，以及每个问题都存在甜蜜点"最佳推理区间"的惊人发现。这标志着"思维学"这一新兴领域的诞生，为我们理解和优化AI推理能力提供了宝贵框架。

来自主题: AI技术研报

8703 点击 2025-04-17 14:26

刚刚，智谱一口气开源6款模型，200 tokens/秒解锁商用速度之最 | 免费

就在刚刚，智谱一口气上线并开源了三大类最新的GLM模型：沉思模型GLM-Z1-Rumination 推理模型GLM-Z1-Air 基座模型GLM-4-Air-0414

来自主题: AI资讯

9158 点击 2025-04-15 11:01

更长思维并不等于更强推理性能，强化学习可以很简洁

今天早些时候，著名研究者和技术作家 Sebastian Raschka 发布了一条推文，解读了一篇来自 Wand AI 的强化学习研究，其中分析了推理模型生成较长响应的原因。

来自主题: AI技术研报

9081 点击 2025-04-14 14:17

推理AI「脑补」成瘾，废话拉满！马里兰华人学霸揭开内幕

研究发现，推理模型（如DeepSeek-R1、o1）遇到「缺失前提」（MiP）的问题时，这些模型往往表现失常：回答长度激增、计算资源浪费。本文基于马里兰大学和利哈伊大学的最新研究，深入剖析推理模型在MiP问题上的「过度思考」现象，揭示其背后的行为模式，带你一窥当前AI推理能力的真实边界。

来自主题: AI技术研报

7570 点击 2025-04-14 14:05

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

尽管这些论文的结论统统指向了强化学习带来的显著性能提升，但来自图宾根大学和剑桥大学的研究者发现，强化学习导致的许多「改进」可能只是噪音。「受推理领域越来越多不一致的经验说法的推动，我们对推理基准的现状进行了严格的调查，特别关注了数学推理领域评估算法进展最广泛使用的测试平台之一 HuggingFaceH4，2024；AI - MO。」

来自主题: AI技术研报

6317 点击 2025-04-13 15:59

为什么李飞飞团队经常cue通义千问？

Qwen 3还未发布，但已发布的Qwen系列含金量还在上升。2个月前，李飞飞团队基于Qwen2.5-32B-Instruct 模型，以不到50美元的成本训练出新模型 S1-32B，取得了与 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型数学及编码能力相当的效果。如今，他们的视线再次投向了这个国产模型。

来自主题: AI资讯

9595 点击 2025-04-12 12:02

200B参数击败满血DeepSeek-R1，字节豆包推理模型Seed-Thinking-v1.5要来了

字节跳动豆包团队今天发布了自家新推理模型 Seed-Thinking-v1.5 的技术报告。从报告中可以看到，这是一个拥有 200B 总参数的 MoE 模型，每次工作时会激活其中 20B 参数。其表现非常惊艳，在各个领域的基准上都超过了拥有 671B 总参数的 DeepSeek-R1。有人猜测，这就是字节豆包目前正在使用的深度思考模型。

来自主题: AI技术研报

9301 点击 2025-04-11 16:01