我们正在见证AI加速科学时代的到来。
7月30日,AI科学发现公司Autopoiesis Sciences宣布,其人工智能联合科学家Aristotle X1 Verify在多项基准测试中取得了显著成果,性能超越了所有主流AI模型。
据悉,Aristotle X1 Verify在推理基准测试GPQA Diamond中达到了92.4%的准确率,高于Grok 4 Heavy(88.9%)、Gemini 2.5 Pro(86.4%)、OpenAI o3(83.3%)。
更惊人的是,Aristotle X1 Verify在事实性基准测试SimpleQA中获得了96.1%的准确率,断层领先Gemini 2.5 Pro(52.9%)、OpenAI o3(49.%)和DeepSeek R1-0528(27.8%)。
同时,公司官宣了由Informed Ventures(金沙江创投在美国的机构)领投的新一轮融资,Mike Mahkow、Cross Atlantic Angels、Tomas Urena Munoz等参投。
成立于2025年的Autopoiesis,致力于构建科学超级智能,以前所未有的方式加速科学发现,并帮助治愈此前被认为无法治愈的疾病。
公司联合创始人、CEO Joseph Reth出生于2002年,14岁进入莫德斯托初级学院,16岁创办数字营销公司RethDigital,客户包括HBO、Whole Foods、现代汽车等知名公司,他曾就读于旧金山州立大学计算机科学专业,之后辍学创业。
越来越多的证据表明,AI的关注重点正在转向科学发现,解决那些能推动科技飞跃的“1%的顶尖问题”。
牛津大学教授Will MacAskill预测,AI有望在不到10年的时间里,推动相当于过去一个世纪的技术进步,为延长人类寿命、太空探索、气候变化和可控核聚变等领域带来新的突破性进展。
Autopoiesis开发的Aristotle X1 Verify 在两项关键的基准测试中取得了惊艳表现,超越了包括xAI的Grok4、谷歌的Gemini 2.5 Pro、OpenAI o3在内的主流AI模型。
这一成就的亮点在于,Aristotle X1 Verify不仅在复杂推理任务上表现卓越,更在“科学思维”方面取得了突破。
在推理基准测试GPQA Diamond上,Aristotle X1 Verify取得了92.4%的准确率。
GPQA Diamond包含198 道高难度的STEM领域(如物理、化学、生物学和经济学)问答题,旨在评估模型在需要深度理解和多步骤推理时的能力。
更值得关注的是,该系统在SimpleQA 基准测试中,也达到了96.1%的高准确率。
SimpleQA由OpenAI推出,专注于简短的事实性问题,用以衡量模型是否“知道自己知道什么”,以此解决当前AI普遍存在的“幻觉”问题。
在此之前,主流模型在SimpleQA上的表现均不佳,就连Gemini 2.5 Pro这样的顶级模型的准确率也仅仅为52.9%,尚不及格。
这暴露了当下主流AI的核心问题:它们擅长模仿推理,但缺乏真正的理解。
这些模型常常在缺乏知识的情况下“自信地编造答案”,无法区分自己真正掌握的知识和仅仅通过模式匹配得出的结论。
Autopoiesis认为,可错论(fallibilism)——认为所有科学知识都是暂时的,并且会根据新证据不断修正,是推动科学突破的基本原则。
公司因此构建了首个符合该原则的AI,将“自我验证”机制系统地融入到推理之中。
当证据不足时,模型会承认其局限性;当面临多种理论时,模型会进行适当权衡;当计算涉及不确定性时,模型会通过推理来传递这种不确定性。
如此,AI具备了识别自身局限性的能力,避免自信地给出错误答案。
Autopoiesis强调,这种能力并非可有可无,而是构建科学超级智能(Scientific superintelligence)的根本要求。
公司相信,通过将怀疑嵌入到推理的每一层,可以为AI赋能科学发现奠定基础,使其最终能够自主操作实验室,并进行超越人类想象的科学发现。
目前,该模型已向部分研究人员开放免费提前体验,名额有限,可以打开下方链接进行申请。
https://autopoiesis.typeform.com/to/Ub9gjetp?typeform-source=autopoiesis.science
Autopoiesis的创始团队,横跨“老中青”三代。
公司首席执行官Joseph Reth,出生于2002年,他的同龄人才刚刚大学本科毕业,而他已经是一名经验丰富的AI领域创业者了。
他的人生时钟,每一步都要比普通人更早。
在美国,社区大学的入学年龄一般为18周岁,个别地区可以放宽到16周岁。而Joseph Reth在14岁时便进入莫德斯托初级学院(Modesto Junior College),学习计算机。
之后他进入旧金山州立大学,同样是计算机科学专业,但也许是看到了更好的创业机会,他选择中途辍学。
16岁,他创办了数字营销公司RethDigital,用AI重构品牌广告代理,投放在TikTok、Instagram和Twitter等平台。
到2021年,RethDigital的年度经常性收入(ARR)已经达到110万美元,客户包括知名付费电视网HBO、美国最大的有机食品超市Whole Foods等知名企业。
尽管在利用AI进行营销方面做得有声有色,但他的志向远不止于此。
2022年,Joseph Reth创立了Lossless Research,致力于通过创建AI系统来揭开人类意识的奥秘。
他将目光锁定到了如何创造出拥有类似人类意识的AI,探索实现这一目标所需的计算和架构要求。
在这一段创业历程,他已不再局限于AI应用层面,而是深入探索AI的底层机制,这很可能为日后Autopoiesis 的创立埋下了伏笔。
图:Joseph Reth(左)、Larry Callahan(中)和Eike Gerhardt(右)
公司首席商务官Eike Gerhardt,曾长期在德意志银行任职,并曾担任Targobank金融顾问和Schumpeter Ventures投资经理,他还是蒂宾根大学的讲师。
公司首席科学家Larry Callahan,拥有芝加哥大学化学博士学位,在FDA工作超过16年,负责全球物质注册系统(Global Substance Registration System)的开发,还曾担任Trials of Life首席科学家,致力于提高临床研究的效率和透明度。
目前,Autopoiesis的团队由8位成员组成,公司正在招聘更多研究人员和工程师,加速构建AI辅助科学发现的基础,开发下一代模型。
Informed Ventures的合伙人Sunny Kumar对公司充满期待,认为其解决了科学家在使用AI时遇到的核心难题:如何可靠地生成准确结果并避免“幻觉”。
他表示,“科学超级智能”将以前所未有的方式加速科学发现,科学家应广泛采用值得信赖的AI助手,从而指数级推动研究进程。
Anthropic 联合创始人兼CEO Dario Amodei曾预测,强大的AI将极大地加速生物学和神经科学的发展,将原本需要50-100 年才能实现的突破,压缩到5-10 年内完成。
我们正在进入一个“压缩的21世纪”,AI 不再仅仅是数据分析工具,更将成为“虚拟生物学家”,设计实验、指导研究,甚至操作实验室机器人,将效率提高数十倍甚至更多。
这一愿景正逐步变为现实。
今年6月,斯坦福大学等多个机构联合发表的Biomni智能体,已经初步展现了 AI 在生命科学领域的“通用”能力,能够像真正的科学家一样,调用专业软件、查询数据库、甚至指导湿实验,自主执行跨越多个领域的复杂研究任务。
3月,Flagship Pioneering领投了Lila Sciences的2亿美元种子轮融资,展现了顶级机构对这一领域的看好。
成立于2023年的Lila Sciences致力于推出世界上第一个用于生命、化学和材料科学的科学超级智能平台和自主实验室,以快速扩展人类知识并突破当今可能的极限。
在短短几年的开发中,Lila Sciences的平台在医疗、材料、环境等领域展示了超越人类的科学性能,包括:
可以预见,AI的不断发展,正推动人类在科学领域的探索迈入一个全新的时代。
文章来自微信公众号 “ 智药局 ”,作者 世晨
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md