
103K「硬核」题,让大模型突破数学推理瓶颈
103K「硬核」题,让大模型突破数学推理瓶颈本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。
本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。
AI数学家来了!清华团队出品—— 他们推出AI Mathematician(AIM)框架,推理模型也能求解前沿理论研究,并且证明完成度很高。
一年之内,大模型推理训练可能就会撞墙。
最强AI模型面对5560道数学难题,成功率仅16.46%?背后真相大揭秘。
AIMO2冠军「答卷」公布了!英伟达团队NemoSkills拔得头筹,开源了OpenMath-Nemotron系列AI模型,1.5B小模型击败14B-DeepSeek「推理大模型」!
在大模型迈向推理时代的当下,数学推理能力已成为衡量语言模型智能上限的关键指标。
在数学推理中,大语言模型存在根本性局限:在美国数学奥赛,顶级AI模型得分不足5%!来自ETH Zurich等机构的MathArena团队,一下子推翻了AI会做数学题这个神话。
挑战多图数学推理新基准,大模型直接全军覆没?!
随着 DeepSeek-R1 的流行与 AI4Math 研究的深入,大模型在辅助形式化证明写作方面的需求日益增长。作为数学推理最直接的应用场景,形式化推理与验证(formal reasoning and verification),也获得持续关注。
Kimi未来还能够翻盘吗? 从公司发展路径上来看,并非没有可能。 作为曾经对OpenAI技术跟随最快的公司,Kimi在去年做出了Kimi探索版、k0-math等多个跟随OpenAI技术的模型,而杨植麟本人也在采访中,表示大模型的未来不仅在于强化学习,还在于多模态能力。 这一点似乎也与OpenAI类似。