别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

9550点击 2025-12-29 14:12

如今，大模型在理解、推理、编程等方面表现突出，但AI的“科学通用能力”（SGI）尚无统一标准。

SGI强调多学科、长链路、跨模态与严谨可验证性，而现有基准仅覆盖碎片能力（如学科问答、单步工具操作），难以反映真实科研中的循环与自纠错。为此，上海人工智能实验室通过引入实践探究模型（PIM），将科学探究拆解为四个循环阶段，并与AI能力维度对应：

审思/深度研究（Deliberation）：复杂问题下的检索、证据综合与批判评估；

构思/创意生成（Conception）：提出新假说与可执行研究方法；

行动/实验执行（Action）：将想法转化为计算代码（干实验）与实验室流程（湿实验）；

感知/结果解读（Perception）：整合多模态证据并进行因果、比较等分析推理。

团队将上述四维能力的综合定义为SGI，并发布覆盖全流程的SGI‑Bench。首轮结果：闭源模型Gemini‑3‑Pro以SGI‑Score 33.83/100取得SOTA，但距离“会做研究”的门槛仍显著不足。

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

SGI-Bench：以科学家工作流对齐的全流程评测

SGI‑Bench采用“科学家对齐（scientist-aligned）”的任务构造：

多学科专家提供原始语料（研究方向、图文材料等）与少量种子问题（seed questions）；
招募超过100位研究生/博士生根据输入输出结构与种子问题，结合真实科研流程，进行题目构建；
经规则校验、模型校验、专家复核三重清洗；最终再以多模型难度筛选剔除简单样本。

最终得到1000多个覆盖10大学科（化学、生命、物理、数学等）的评测样本。

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

核心结果与洞见：今天的“强模型”，尚未成为“强科学家”

1. 审思/深度研究Deliberation

科学深度研究（Scientific Deep Research）步骤准确率高于严格匹配，长链路“结论崩塌”

任务模拟文献元分析与多跳检索，要求在明确约束下检索并整合跨来源证据、进行定量推理，输出可核验结论。

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

实验结果：

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

步骤准确率达50%–65%，但长链条步骤中的错误导致最终结论频繁错误，答案严格匹配仅10%–20%。

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

工具增强的多智能体在逐步准确率略优，但与纯模型差距并不显著。

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

类型上，“数据/性质”题最难，需跨文献精确检索与数值聚合；“微/宏实验”类相对较好但整体仍低于30%，体现元分析难度的严苛性。

2. 构思/创意生成Conception

创意生成（Idea Generation）新颖度尚可，但可行性偏低

面向整体思路和具体方案，考察将灵感转化为可执行蓝图的能力（包含创新点、方法步骤，数据，指标等）。

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

实验结果：

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

闭源模型“新颖性（Novelty）”更强，但“可行性（Feasibility）”普遍偏低。以GPT‑5为例：新颖性76.08、可行性18.87，体现“概念丰富≠可执行方案”。
开源可行性上限约20分（如Qwen3‑Max 20.98），多数模型14–20分，显示“能说清”与“能落地”之间的落差。
常见缺陷：缺少数据获取与预处理计划；流程接口不闭合（输入输出不对齐）；步骤顺序与依赖模糊，导致“创意→蓝图→执行”闭环断裂。

3. 行动/实验执行Action：干实验（Dry Experiment）

可运行≠科学正确

根据科学背景，将缺失函数补全到主代码中，检验科学代码合成、数值稳健性与算法精确性，强调严格正确与可执行。

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

实验结果：

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

每题含5个单测，最佳Gemini‑3‑Pro的严格通过率（全过5个单测）仅36.64%，宽松通过率（至少过1个）41.98%，表明模型常能写对部分，但难以实现严格正确。
闭源模型略优于开源，但优势有限且分布重叠，“科学代码合成”仍是各架构共同短板。

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

平滑执行率（无报错运行）多在90%+，显示“能跑”与“算对”之间存在系统性鸿沟。
类型上，数据处理/预测建模较稳；数值计算与仿真最弱，受离散化、稳定性与约束处理影响。例：引力波体积估计中，前向累加（np.cumsum）与自适应积分（scipy.integrate.quad）差异巨大；前者累积误差经χ(z)影响dV/dz，最终体积严重偏离。

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

4. 行动/实验执行Action：湿实验（Wet Experiment）

动作时序、分支与参数选择是硬伤

基于实验背景与原子动作池，生成带参数的原子动作序列，以检验流程规划、顺序依赖与复杂约束的正确处理。

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

实验结果：

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

序列相似度整体偏低，最佳闭源约35.5；参数准确率最高约40.6；部分闭源参数准确率显著下跌（约20.7）。
高发错误：插入多余步骤、遗漏关键步骤、打乱有效步骤顺序。
在NSCLC抗PD‑1流程中，常见错误包括：将纵向采样简化为一次采血；PBMC只在单一时间点分离；功能测定未按时间/刺激分组；基因组测序与免疫表型流程混用样本等，反映时间协调、分支规划与样本管理薄弱。

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

5. 感知/结果解读Perception

多模态实验推理（Experimental Reasoning）因果推理尚可，比较推理最难

综合解读多模态证据（图像、流程、可视化等），识别跨模态线索、建模变量关系，进行比较与因果判断，输出可读推理与准确答案。

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

实验结果：

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

闭源整体更强：最佳闭源答案准确率约41.9、推理有效性最高约71.3。
多数模型推理有效性高于答案准确率：难以实现推理链条的完全正确。
推理类型上，因果推断与感知识别较稳；比较型最弱，涉及跨样本细粒度对比与一致性判别。学科上，天文最佳，物理、生命等学科挑战较大。

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

智能体评测框架：简单，高效，定制化

传统评测框架大都基于固定的评测脚本，对于普通用户的上手难度高且难以根据需求差异进行定制化评测。团队面向“可定制评测与报告生成”设计SGIEvalAgent，它由4部分构成：

任务精选智能体：结合用户需求，按学科、任务类型、样本规模等选择评测题目。
指标定制智能体：根据用户需求自定义评测指标。
评测执行智能体：运行评测并得到分数。
报告生成智能体：综合用户输入与评测结果，撰写评测报告。

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

你可以用自然语言描述评测意图（如“比较两款模型在跨学科创意生成上的严谨性”），系统将自动解析意图、选择题目、定制指标，执行推理与打分，最终输出带有可追溯证据链的评测报告与可复现的明细结果。

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

SGI-Bench：不止一个基准，更是一条路线图

SGI‑Bench的结果为AI自主科研指明方向：

深度研究：强化证据聚合与数值鲁棒性，提升深层研究准确性。

创意生成：引入规划感知与结构化监督，保障创意可行与执行细节完备。

代码生成：训练需超越语法，聚焦数值分析先验与算法稳定性。

湿实验协议：结合状态模拟，重点解决时序逻辑与复杂分支。

多模态推理：通过细粒度视觉定位与对比训练，提升比较推理精度。

论文：https://arxiv.org/pdf/2512.16969

主页：https://InternScience.github.io/SGI-Page/

代码：https://github.com/InternScience/SGI-Bench

数据：https://huggingface.co/collections/InternScience/sgi-bench

文章来自于“量子位”，作者 “SGI-Bench团队”。

关键词: AI , 模型训练 , SGI‑Bench , AI评测基准

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md