AI资讯新闻榜单内容搜索-数学推理

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 数学推理
多模态慢思考:分解原子步骤以解决复杂数学推理

多模态慢思考:分解原子步骤以解决复杂数学推理

多模态慢思考:分解原子步骤以解决复杂数学推理

AtomThink 是一个包括 CoT 注释引擎、原子步骤指令微调、政策搜索推理的全流程框架,旨在通过将 “慢思考 “能力融入多模态大语言模型来解决高阶数学推理问题。量化结果显示其在两个基准数学测试中取得了大幅的性能增长,并能够轻易迁移至不同的多模态大模型当中。

来自主题: AI技术研报
5540 点击    2024-11-30 16:45
大模型不会推理,为什么也能有思路?有人把原理搞明白了

大模型不会推理,为什么也能有思路?有人把原理搞明白了

大模型不会推理,为什么也能有思路?有人把原理搞明白了

大模型不会照搬训练数据中的数学推理,回答事实问题和推理问题的「思路」也不一样。

来自主题: AI技术研报
7405 点击    2024-11-22 16:53
上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"

上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"

上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"

自从 OpenAI 发布展现出前所未有复杂推理能力的 o1 系列模型以来,全球掀起了一场 AI 能力 “复现” 竞赛。近日,上海交通大学 GAIR 研究团队在 o1 模型复现过程中取得新的突破,通过简单的知识蒸馏方法,团队成功使基础模型在数学推理能力上超越 o1-preview。

来自主题: AI技术研报
5148 点击    2024-11-22 16:46
AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

大型语言模型(LLM)最近在各种数学benchmark上疯狂刷分,动辄90%以上的正确率,搞得好像要统治数学界一样。然而,Epoch AI看不下去了,联手60多位顶尖数学家,憋了个大招——FrontierMath,一个专治LLM各种不服的全新数学推理测试!结果惨不忍睹,LLM集体“翻车”,正确率竟然不到2%!

来自主题: AI技术研报
3907 点击    2024-11-11 14:36
OpenAI神秘模型「草莓」两周内上线?数学推理暴涨,月收费200刀已有人付费

OpenAI神秘模型「草莓」两周内上线?数学推理暴涨,月收费200刀已有人付费

OpenAI神秘模型「草莓」两周内上线?数学推理暴涨,月收费200刀已有人付费

就在刚刚,The Information曝出:OpenAI的草莓将于两周内上线!收费疑似200刀一个月,最大的特色就是比其他模型多思考10到20秒。然而因为「狼来了」太多回,网友们忍不住吐槽:OpenAI现在就是个炒作公司。

来自主题: AI技术研报
8432 点击    2024-09-11 17:27
GPT-5降临,代号猎户座?OpenAI疑用草莓训练,数学推理暴涨超越所有模型

GPT-5降临,代号猎户座?OpenAI疑用草莓训练,数学推理暴涨超越所有模型

GPT-5降临,代号猎户座?OpenAI疑用草莓训练,数学推理暴涨超越所有模型

OpenAI又憋大招了!据悉,下一代旗舰模型GPT-5或名为「猎户座」,由「草莓」合成的数据训练。而草莓具有极强的复杂推理(数学、编程)和语言能力,或将超越当前的任何模型的推理和生成的能力。

来自主题: AI资讯
6156 点击    2024-08-28 17:19
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。

来自主题: AI技术研报
8671 点击    2024-08-08 14:41
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

大型语言模型(LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异,准确率高达 90% 以上。同时,许多开源模型也展现出了不俗的实力,准确率超过 80%。

来自主题: AI资讯
7208 点击    2024-07-18 16:57