只要科学任务能打分，AI就能实现SOTA结果

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

8796点击 2025-09-17 09:29

只要科学任务可以评分，AI就能找到超越人类专家的方法，实现SOTA结果？

这是谷歌一篇最新论文里的内容：

使用大模型+树搜索，让AI大海捞针就行。

他们还开发了一个帮助科学家编写专家级实证软件的AI系统。

该系统在生物信息学、流行病学、地理空间分析等领域发明的新方法，都达到了SOTA的水平。

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

网友表示：任何可量化的东西都将被AI征服。

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

这篇论文目前在X上获得了2.6K赞，引发了广泛的讨论。

让我们一起看看。

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

可评分任务在科学中无处不在

实证软件指的是以最大化可定义或可度量的质量指标（通常指对现有观测数据的拟合度）为设计目标的软件。

如果一个任务可以用实证软件解决，就可以被称为可评分任务。

论文表示，他们构建这个系统主要是基于两个原因：

一方面，可评分任务在科学界无处不在。如今几乎每个科学子领域、应用数学和工程领域都依赖软件，其中大部分软件都是解决可量化任务的实证软件。

另一方面，科学实证软件的开发过程缓慢且艰难。特定领域的实证软件需要繁琐的工作，通常需要数年才能完成。

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

而这个新系统能够系统地自动创建实证软件，以解决可评分任务。

简单地说，该方法基于大语言模型（LLM），通过让LLM重写代码来提升软件的质量评分。系统首先生成大量的候选软件解决方案，然后运用树搜索算法筛选值得进一步优化的候选方案。

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

虽然代码变异系统的设计方式多样，但研究人员通过设计基于基础Kaggle竞赛基准的对抗测试，持续改进了该方法。

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

研究人员通过注入研究思想来增强代码变异能力——这些思想来源广泛，涵盖从高被引论文、专业教科书到搜索引擎结果等多个渠道。

在实际应用中，用户既可直接注入这些思想，也可通过搜索引擎自动获取文献研究成果。

LLMs在代码编写过程中会充分利用这些注入的指导信息。

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

结果显示，该系统可广泛应用于科学领域的各类可评分任务，生成的软件性能超越了科学家开发的最先进水平。

这种超人类性能的实现，源于系统能够在前所未有的规模上、彻底且不知疲倦地进行解决方案搜索，从而发现“沧海遗珠”式的高质量解决方案。

在生物信息学领域，这个新系统发现了40种用于单细胞数据分析的新方法，在公开排行榜上超越了人类专家开发的最顶尖方法。

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

在地理空间分析方法上，系统开发出的三个新方法在DLRSD基准测试上显著优于近期学术论文报道的结果，mIoU指标均突破0.80大关。

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

在神经科学领域，斑马鱼活动预测基准（ZAPBench）上，该系统的解决方案有效地利用了跨神经元信息来生成预测，虽然没有超过表现最好的视频模型，但它与时序基线模型相比仍然具有竞争力，并且在训练速度上比表现最佳的视频模型快几个数量级。

（这个基准Y轴越低越好）

此外，在流行病学、时间序列预测、数值分析领域，新系统都能取得和人类顶级方法相当、甚至超越人类的结果。

总而言之，研究团队开发了一种新方法：把基于树搜索的代码变异系统和整合复杂研究思路的能力相结合。

这些研究思路可以来自已发表的论文、研究智能体，也可以是LLM已有思路和方案的组合。

网友评价：这种新方法正在为未来的AI创造更好的算法。

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

但同样的，问题也随之而来：把科学研究的权限交给AI真的合适么？

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

顶尖的AI研究员也像我们一样使用提示

有细心的网友发现，在这篇论文里，研究人员使用的提示词和我们也没什么差别：

请创建一个算法，利用两种策略的优点，创建一个真正出色的混合策略，并且得分要高于任何一种单独的策略！！

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

全都用的都是大写字母，和中文里疯狂敲感叹号没什么差别。

网友笑评：就像答辩的前一周，简直火烧眉毛了。

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

也有网友表示这是一个很好的现象。它证明好结果并不总是需要复杂的指令，能够清晰表达需求就足够有效。

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

创造力才是进步的核心。

只要科学任务能打分，AI就能实现SOTA结果 | 谷歌最新论文

参考链接：

[1]https://x.com/arankomatsuzaki/status/1965253577221587218

[2]https://x.com/deedydas/status/1965468238483235015

[3]https://google-research.github.io/score/

文章来自于微信公众号 “量子位”，作者 “量子位”

关键词: AI , 人工智能 , 模型训练 , AI科研

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0