AI资讯新闻榜单内容搜索-数学推理

NeurIPS 2024 | 数学推理场景下，首个分布外检测研究成果来了

本文将介绍数学推理场景下的首个分布外检测研究成果。

来自主题: AI技术研报

4279 点击 2024-12-02 14:14

多模态慢思考：分解原子步骤以解决复杂数学推理

AtomThink 是一个包括 CoT 注释引擎、原子步骤指令微调、政策搜索推理的全流程框架，旨在通过将 “慢思考 “能力融入多模态大语言模型来解决高阶数学推理问题。量化结果显示其在两个基准数学测试中取得了大幅的性能增长，并能够轻易迁移至不同的多模态大模型当中。

来自主题: AI技术研报

7710 点击 2024-11-30 16:45

大模型不会推理，为什么也能有思路？有人把原理搞明白了

大模型不会照搬训练数据中的数学推理，回答事实问题和推理问题的「思路」也不一样。

来自主题: AI技术研报

8698 点击 2024-11-22 16:53

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

自从 OpenAI 发布展现出前所未有复杂推理能力的 o1 系列模型以来，全球掀起了一场 AI 能力 “复现” 竞赛。近日，上海交通大学 GAIR 研究团队在 o1 模型复现过程中取得新的突破，通过简单的知识蒸馏方法，团队成功使基础模型在数学推理能力上超越 o1-preview。

来自主题: AI技术研报

7818 点击 2024-11-22 16:46

AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

大型语言模型（LLM）最近在各种数学benchmark上疯狂刷分，动辄90%以上的正确率，搞得好像要统治数学界一样。然而，Epoch AI看不下去了，联手60多位顶尖数学家，憋了个大招——FrontierMath，一个专治LLM各种不服的全新数学推理测试！结果惨不忍睹，LLM集体“翻车”，正确率竟然不到2%！

来自主题: AI技术研报

6502 点击 2024-11-11 14:36

OpenAI神秘模型「草莓」两周内上线？数学推理暴涨，月收费200刀已有人付费

就在刚刚，The Information曝出：OpenAI的草莓将于两周内上线！收费疑似200刀一个月，最大的特色就是比其他模型多思考10到20秒。然而因为「狼来了」太多回，网友们忍不住吐槽：OpenAI现在就是个炒作公司。

来自主题: AI技术研报

10145 点击 2024-09-11 17:27

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

OpenAI又憋大招了！据悉，下一代旗舰模型GPT-5或名为「猎户座」，由「草莓」合成的数据训练。而草莓具有极强的复杂推理（数学、编程）和语言能力，或将超越当前的任何模型的推理和生成的能力。

来自主题: AI资讯

7820 点击 2024-08-28 17:19

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构建多模态基准

LLM的数学推理能力缺陷得到了很多研究的关注，但最近浙大、中科院等机构的学者们提出，先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。

来自主题: AI技术研报

10521 点击 2024-08-08 14:41

明星AI独角兽Mistral AI亮出大模型新王炸，代码和数学能力超群

Mistral AI两款全新7B模型宣战OpenAI，对标更长的代码分析和更高效的数学推理。

来自主题: AI资讯

6838 点击 2024-07-19 10:37

ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

大型语言模型（LLMs）在解决问题方面的非凡能力日益显现。最近，一个值得关注的现象是，这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例，在高难度小学应用题测试集 GSM8K [1] 中表现优异，准确率高达 90% 以上。同时，许多开源模型也展现出了不俗的实力，准确率超过 80%。

来自主题: AI资讯

9226 点击 2024-07-18 16:57