GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem
9058点击    2025-12-15 15:16

北大团队发布化学大模型基准SUPERChem,这是一个多模态、高难度的化学推理基准。它针对现有化学评测的不足,系统构建了评估大语言模型化学推理能力的新体系。测试结果显示,前沿模型如GPT-5准确率仅38.5%,与低年级本科生水平相当,且在高阶化学推理环节存在短板。该基准为模型优化提供了方向。


2025年,随着开源推理模型DeepSeek-R1推出,LLM在「深度思考」范式下快速发展,其在自然科学领域的应用已从简单问答转向复杂推理。然而,现有通用科学基准趋于饱和,化学专用基准多关注基础能力与化学信息学任务,缺乏对深度推理的系统考察。


从基础教育、化学奥林匹克竞赛到高等教育,化学学习强调知识综合运用与多步推理,是评估推理能力的理想场景。设计高质量评估题目需融合抽象概念与具体情境,构建层层递进的推理链,对出题者专业素养要求极高。


近日,北京大学化学与分子工程学院联合计算中心、计算机学院、元培学院发布化学大模型基准SUPERChem。该基准针对当前化学评测中题目难度有限、多模态与推理过程评估缺失等不足,系统构建了专注评估大语言模型 (LLM) 化学推理能力的新体系,旨在推动化学智能评测的深入发展。


GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem

论文链接:https://arxiv.org/abs/2512.01274

数据集:https://huggingface.co/datasets/ZehuaZhao/SUPERChem

平台网站:https://superchem.pku.edu.cn


研究团队依托北京大学化学学院水平顶尖的本科生和研究生群体,充分发挥其扎实学科功底与丰富解题命题经验,对已有题目素材进行准确评估与合理优化,共同构建了SUPERChem基准,填补了化学深度推理评估的空白。


GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem


SUPERChem总览与例题


数据构建


GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem

SUPERChem题库的三阶段审核流程


SUPERChem题库由北大化学专业近百名师生共建,涵盖题目编写、解析撰写及严格的三阶段审核。


题目源自非公开试题与专业文献改编,并采用防泄漏设计,避免LLM依赖记忆或从选项逆推。针对化学信息的多模态特点,同步提供图文交错与纯文本版本的对齐数据集,支持探究视觉信息对推理的影响。


目前,SUPERChem先期发布500道专家级精选题目,覆盖结构与性质、化学反应与合成、化学原理与计算、实验设计与分析四大化学核心领域。


为细粒度评估LLM思考过程,SUPERChem引入推理路径一致性(Reasoning Path Fidelity, RPF)指标:团队为每道题目撰写了含关键检查点的详细解析,通过自动化评估模型思维链与解析的一致性,判别模型是否真正「理解」化学。


评测结果


前沿模型接近低年级本科生水平,不同模型推理一致性存在差异


GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem

前沿模型在SUPERChem上的表现


评测显示,SUPERChem具有较高难度与区分度。在北京大学化学专业低年级本科生闭卷测试中,人类准确率为40.3%。参与评测的前沿模型中,表现最佳的GPT-5 (High)准确率为38.5%,表明其化学推理能力仅与化学专业低年级本科生水平相当,尚未超越人类基础专业认知。


GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem

前沿模型的正确率与RPF关系


分析RPF指标可见,不同模型推理过程质量差异明显:Gemini-2.5-Pro和GPT-5 (High)在取得较高准确率的同时,其推理逻辑也更符合专家路径;而DeepSeek-V3.1-Think虽然准确率相近,但RPF得分相对较低,反映其更倾向通过启发式路径得出结论。


多模态信息的「双刃剑」效应


GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem

输入模态对不同模型的影响


在依赖多模态输入的题目中,视觉信息对不同模型影响各异:对Gemini-2.5-Pro等强推理模型,图像输入可提升准确率;对GPT-4o等推理能力较弱的模型,图像信息反而造成干扰。这提示在科学任务中需根据模型能力匹配合适的输入模态。


推理断点分析:模型倒在了哪一步?


为进一步探究LLM推理失败的深层原因,研究团队进行了推理断点分析。结果表明,前沿模型的推理断点集中于产物结构预测、反应机理识别、构效关系分析等高阶化学推理环节,反映出当前LLM在涉及反应性与分子结构理解的核心任务上仍存在短板。


GPT-5准确率不足40%!北大发布多模态、高难度化学基准SUPERChem

推理断点所属化学能力分布


总结


综上所述,SUPERChem为系统评估大语言模型的化学推理能力提供了细致、可靠的基准。


评测结果指出,当前前沿模型的化学能力仍处于基础水平,在涉及高阶化学推理能力的任务上存在明显局限,为后续模型的针对性优化提供了明确方向。


团队介绍


SUPERChem项目由北京大学化学与分子工程学院与元培学院的赵泽华、黄志贤、李隽仁、林思宇同学领衔完成。


77位北京大学化学专业的博士生与高年级本科生参与了SUPERChem题库的构建与审核,其中包括3位国际化学奥林匹克(IChO)获奖选手与64位中国化学奥林匹克(CChO)决赛获奖选手。174位北京大学化学专业低年级本科生参与了人类基线测试。


SUPERChem项目在北京大学化学与分子工程学院裴坚、高珍老师,计算中心马皓老师,计算机学院杨仝老师的指导下开展。


项目获得北京大学计算中心与高性能计算平台资源支持,来自Chemy、好未来、质心教育等机构和化学与分子工程学院邹鹏、郑捷等多位教授的题目素材支持,以及高杨、龙汀汀老师的专业协助。


参考资料:

https://arxiv.org/abs/2512.01274


文章来自于“新智元”,作者 “LRST”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/