AI资讯新闻榜单内容搜索-数学推理

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

在数学推理中，大语言模型存在根本性局限：在美国数学奥赛，顶级AI模型得分不足5%！来自ETH Zurich等机构的MathArena团队，一下子推翻了AI会做数学题这个神话。

来自主题: AI技术研报

8702 点击 2025-04-02 14:58

685B的DeepSeek-V3新版本，就在昨夜悄悄上线了。参数量685B的V3，代码数学推理再次显著提升，甚至代码追平Claude 3.7，网友们实测后大呼强到离谱！有人预测说，按照此前的节奏，DeepSeek-R2大概率几周内就将上线。

来自主题: AI技术研报

10291 点击 2025-03-25 12:09

就在DeepSeek-V3更新的同一夜，阿里通义千问Qwen又双叒叕一次梦幻联动了——

来自主题: AI资讯

10122 点击 2025-03-25 11:47

多模态大模型虽然在视觉理解方面表现出色，但在需要深度数学推理的任务上往往力不从心，尤其是对于参数量较小的模型来说更是如此。

来自主题: AI技术研报

5376 点击 2025-03-19 09:43

挑战多图数学推理新基准，大模型直接全军覆没？！

来自主题: AI技术研报

7588 点击 2025-03-11 17:22

CMU团队用LCPO训练了一个15亿参数的L1模型，结果令人震惊：在数学推理任务中，它比S1相对提升100%以上，在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是，要求短推理时，甚至击败了GPT-4o——用的还是相同的token预算！

来自主题: AI技术研报

5724 点击 2025-03-10 10:22

随着 DeepSeek-R1 的流行与 AI4Math 研究的深入，大模型在辅助形式化证明写作方面的需求日益增长。作为数学推理最直接的应用场景，形式化推理与验证（formal reasoning and verification），也获得持续关注。

来自主题: AI技术研报

5391 点击 2025-03-09 10:31

通过针对视觉的细分类、目标检测等任务设计对应的规则奖励，Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知，为视觉语言模型的训练开辟了全新路径！

来自主题: AI技术研报

6964 点击 2025-03-04 20:09

给DeepSeek-R1推理指导，它的数学推理能力就开始暴涨。更令人吃惊是，Qwen2.5-14B居然给出了此前从未见过的希尔伯特问题的反例！而人类为此耗费了27年。研究者预言：LLM离破解NP-hard问题，已经又近了一步。

来自主题: AI技术研报

9047 点击 2025-03-04 16:20

自动形式化数学定理证明，是人工智能在数学推理领域的重要应用方向。此类任务需要将数学命题和证明步骤转化为计算机可验证的代码，这不仅能确保推理过程的绝对严谨性，还能构建可复用的数学知识库，为科学研究提供坚实基础。

来自主题: AI技术研报

5728 点击 2025-02-26 09:37