AI资讯新闻榜单内容搜索-数学推理

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 数学推理
推理正确率下降65.5%!斯坦福、MIT等用「不等式」拷问AI逻辑极限

推理正确率下降65.5%!斯坦福、MIT等用「不等式」拷问AI逻辑极限

推理正确率下降65.5%!斯坦福、MIT等用「不等式」拷问AI逻辑极限

大语言模型在数学证明中常出现推理漏洞,如跳步或依赖特殊值。斯坦福等高校团队提出IneqMath基准,将不等式证明拆解为可验证的子任务。结果显示,模型的推理正确率远低于答案正确率,暴露出其在数学推理上的缺陷。

来自主题: AI技术研报
8920 点击    2025-06-23 14:41
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈

思维链(Chain of Thought, CoT)推理方法已被证明能够显著提升大语言模型(LLMs)在复杂任务中的表现。而在多模态大语言模型(MLLMs)中,CoT 同样展现出了巨大潜力。

来自主题: AI技术研报
9119 点击    2025-06-17 10:21
103K「硬核」题,让大模型突破数学推理瓶颈

103K「硬核」题,让大模型突破数学推理瓶颈

103K「硬核」题,让大模型突破数学推理瓶颈

本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。

来自主题: AI技术研报
9251 点击    2025-06-11 14:50
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

推理模型常常表现出类似自我反思的行为,但问题是——这些行为是否真的能有效探索新策略呢?

来自主题: AI技术研报
7473 点击    2025-06-02 17:48
中兴星云拿下推理总分榜一!SuperCLUE 5月成绩出炉

中兴星云拿下推理总分榜一!SuperCLUE 5月成绩出炉

中兴星云拿下推理总分榜一!SuperCLUE 5月成绩出炉

就在刚刚,中兴通讯星云大模型获推理榜总分第一,总榜并列第二!而在数学推理、科学推理、代码生成的细分赛道上,它同样表现抢眼。更难得的是,它是业内少数通过国家级权威安全认证的大模型。

来自主题: AI资讯
8622 点击    2025-05-31 11:40
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

就在刚刚,DeepSeek-Prover-V2技术报告也来了!34页论文揭秘了模型的训练核心——递归+强化学习,让数学推理大提升。有人盛赞:DeepSeek已找到通往AGI的正确路径!

来自主题: AI资讯
8630 点击    2025-05-01 10:49
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

尽管这些论文的结论统统指向了强化学习带来的显著性能提升,但来自图宾根大学和剑桥大学的研究者发现,强化学习导致的许多「改进」可能只是噪音。「受推理领域越来越多不一致的经验说法的推动,我们对推理基准的现状进行了严格的调查,特别关注了数学推理领域评估算法进展最广泛使用的测试平台之一 HuggingFaceH4,2024;AI - MO。」

来自主题: AI技术研报
5038 点击    2025-04-13 15:59