如今,大模型在理解、推理、编程等方面表现突出,但AI的“科学通用能力”(SGI)尚无统一标准。
SGI强调多学科、长链路、跨模态与严谨可验证性,而现有基准仅覆盖碎片能力(如学科问答、单步工具操作),难以反映真实科研中的循环与自纠错。为此,上海人工智能实验室通过引入实践探究模型(PIM),将科学探究拆解为四个循环阶段,并与AI能力维度对应:

审思/深度研究(Deliberation):复杂问题下的检索、证据综合与批判评估;
构思/创意生成(Conception):提出新假说与可执行研究方法;
行动/实验执行(Action):将想法转化为计算代码(干实验)与实验室流程(湿实验);
感知/结果解读(Perception):整合多模态证据并进行因果、比较等分析推理。
团队将上述四维能力的综合定义为SGI,并发布覆盖全流程的SGI‑Bench。首轮结果:闭源模型Gemini‑3‑Pro以SGI‑Score 33.83/100取得SOTA,但距离“会做研究”的门槛仍显著不足。

SGI‑Bench采用“科学家对齐(scientist-aligned)”的任务构造:
最终得到1000多个覆盖10大学科(化学、生命、物理、数学等)的评测样本。


科学深度研究(Scientific Deep Research)步骤准确率高于严格匹配,长链路“结论崩塌”
任务模拟文献元分析与多跳检索,要求在明确约束下检索并整合跨来源证据、进行定量推理,输出可核验结论。

实验结果:

步骤准确率达50%–65%,但长链条步骤中的错误导致最终结论频繁错误,答案严格匹配仅10%–20%。

工具增强的多智能体在逐步准确率略优,但与纯模型差距并不显著。

类型上,“数据/性质”题最难,需跨文献精确检索与数值聚合;“微/宏实验”类相对较好但整体仍低于30%,体现元分析难度的严苛性。
创意生成(Idea Generation)新颖度尚可,但可行性偏低
面向整体思路和具体方案,考察将灵感转化为可执行蓝图的能力(包含创新点、方法步骤,数据,指标等)。

实验结果:

可运行≠科学正确
根据科学背景,将缺失函数补全到主代码中,检验科学代码合成、数值稳健性与算法精确性,强调严格正确与可执行。

实验结果:



动作时序、分支与参数选择是硬伤
基于实验背景与原子动作池,生成带参数的原子动作序列,以检验流程规划、顺序依赖与复杂约束的正确处理。

实验结果:


多模态实验推理(Experimental Reasoning)因果推理尚可,比较推理最难
综合解读多模态证据(图像、流程、可视化等),识别跨模态线索、建模变量关系,进行比较与因果判断,输出可读推理与准确答案。


实验结果:


传统评测框架大都基于固定的评测脚本,对于普通用户的上手难度高且难以根据需求差异进行定制化评测。团队面向“可定制评测与报告生成”设计SGIEvalAgent,它由4部分构成:

你可以用自然语言描述评测意图(如“比较两款模型在跨学科创意生成上的严谨性”),系统将自动解析意图、选择题目、定制指标,执行推理与打分,最终输出带有可追溯证据链的评测报告与可复现的明细结果。

SGI‑Bench的结果为AI自主科研指明方向:
深度研究:强化证据聚合与数值鲁棒性,提升深层研究准确性。
创意生成:引入规划感知与结构化监督,保障创意可行与执行细节完备。
代码生成:训练需超越语法,聚焦数值分析先验与算法稳定性。
湿实验协议:结合状态模拟,重点解决时序逻辑与复杂分支。
多模态推理:通过细粒度视觉定位与对比训练,提升比较推理精度。
论文:https://arxiv.org/pdf/2512.16969
主页:https://InternScience.github.io/SGI-Page/
代码:https://github.com/InternScience/SGI-Bench
数据:https://huggingface.co/collections/InternScience/sgi-bench
文章来自于“量子位”,作者 “SGI-Bench团队”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md