AI资讯新闻榜单内容搜索-数学推理

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 数学推理

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

最强AI模型面对5560道数学难题，成功率仅16.46%？背后真相大揭秘。

来自主题: AI技术研报

10608 点击 2025-05-08 10:36

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

就在刚刚，DeepSeek-Prover-V2技术报告也来了！34页论文揭秘了模型的训练核心——递归+强化学习，让数学推理大提升。有人盛赞：DeepSeek已找到通往AGI的正确路径！

来自主题: AI资讯

10146 点击 2025-05-01 10:49

3710亿数学tokens，全面开放！史上最大高质量开源数学预训练数据集MegaMath发布

3710亿数学tokens，全面开放！史上最大高质量开源数学预训练数据集MegaMath发布

3710亿数学tokens，全面开放！史上最大高质量开源数学预训练数据集MegaMath发布

在大模型迈向推理时代的当下，数学推理能力已成为衡量语言模型智能上限的关键指标。

来自主题: AI技术研报

5909 点击 2025-04-14 09:01

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

尽管这些论文的结论统统指向了强化学习带来的显著性能提升，但来自图宾根大学和剑桥大学的研究者发现，强化学习导致的许多「改进」可能只是噪音。「受推理领域越来越多不一致的经验说法的推动，我们对推理基准的现状进行了严格的调查，特别关注了数学推理领域评估算法进展最广泛使用的测试平台之一 HuggingFaceH4，2024；AI - MO。」

来自主题: AI技术研报

6554 点击 2025-04-13 15:59

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

在数学推理中，大语言模型存在根本性局限：在美国数学奥赛，顶级AI模型得分不足5%！来自ETH Zurich等机构的MathArena团队，一下子推翻了AI会做数学题这个神话。

来自主题: AI技术研报

10455 点击 2025-04-02 14:58

DeepSeek-V3深夜惊爆上新！代码数学飙升剑指GPT-5，一台Mac可跑

DeepSeek-V3深夜惊爆上新！代码数学飙升剑指GPT-5，一台Mac可跑

DeepSeek-V3深夜惊爆上新！代码数学飙升剑指GPT-5，一台Mac可跑

685B的DeepSeek-V3新版本，就在昨夜悄悄上线了。参数量685B的V3，代码数学推理再次显著提升，甚至代码追平Claude 3.7，网友们实测后大呼强到离谱！有人预测说，按照此前的节奏，DeepSeek-R2大概率几周内就将上线。

来自主题: AI技术研报

11715 点击 2025-03-25 12:09

32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强

32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强

32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强

就在DeepSeek-V3更新的同一夜，阿里通义千问Qwen又双叒叕一次梦幻联动了——

来自主题: AI资讯

11678 点击 2025-03-25 11:47

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

多模态大模型虽然在视觉理解方面表现出色，但在需要深度数学推理的任务上往往力不从心，尤其是对于参数量较小的模型来说更是如此。

来自主题: AI技术研报

6497 点击 2025-03-19 09:43

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

挑战多图数学推理新基准，大模型直接全军覆没？！

来自主题: AI技术研报

8789 点击 2025-03-11 17:22

1.5B硬刚GPT-4o，CMU祭出LCPO提示可控思考！每token性能较S1暴涨2倍

1.5B硬刚GPT-4o，CMU祭出LCPO提示可控思考！每token性能较S1暴涨2倍

1.5B硬刚GPT-4o，CMU祭出LCPO提示可控思考！每token性能较S1暴涨2倍

CMU团队用LCPO训练了一个15亿参数的L1模型，结果令人震惊：在数学推理任务中，它比S1相对提升100%以上，在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是，要求短推理时，甚至击败了GPT-4o——用的还是相同的token预算！

来自主题: AI技术研报

7274 点击 2025-03-10 10:22

上一页当前第4页,共8页下一页