AI「亚里士多德」首战封神!跑分碾压所有主流大模型,00后辍学天才创立,打造科学超级智能!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI「亚里士多德」首战封神!跑分碾压所有主流大模型,00后辍学天才创立,打造科学超级智能!
7588点击    2025-08-03 00:25

我们正在见证AI加速科学时代的到来。


7月30日,AI科学发现公司Autopoiesis Sciences宣布,其人工智能联合科学家Aristotle X1 Verify在多项基准测试中取得了显著成果,性能超越了所有主流AI模型。


据悉,Aristotle X1 Verify在推理基准测试GPQA Diamond中达到了92.4%的准确率,高于Grok 4 Heavy(88.9%)、Gemini 2.5 Pro(86.4%)、OpenAI o3(83.3%)。


更惊人的是,Aristotle X1 Verify在事实性基准测试SimpleQA中获得了96.1%的准确率,断层领先Gemini 2.5 Pro(52.9%)、OpenAI o3(49.%)和DeepSeek R1-0528(27.8%)。


AI「亚里士多德」首战封神!跑分碾压所有主流大模型,00后辍学天才创立,打造科学超级智能!


同时,公司官宣了由Informed Ventures(金沙江创投在美国的机构)领投的新一轮融资,Mike Mahkow、Cross Atlantic Angels、Tomas Urena Munoz等参投。


成立于2025年的Autopoiesis,致力于构建科学超级智能,以前所未有的方式加速科学发现,并帮助治愈此前被认为无法治愈的疾病。


公司联合创始人、CEO Joseph Reth出生于2002年,14岁进入莫德斯托初级学院,16岁创办数字营销公司RethDigital,客户包括HBO、Whole Foods、现代汽车等知名公司,他曾就读于旧金山州立大学计算机科学专业,之后辍学创业。


越来越多的证据表明,AI的关注重点正在转向科学发现,解决那些能推动科技飞跃的“1%的顶尖问题”。


牛津大学教授Will MacAskill预测,AI有望在不到10年的时间里,推动相当于过去一个世纪的技术进步,为延长人类寿命、太空探索、气候变化和可控核聚变等领域带来新的突破性进展。

 

最懂科学的模型,性能逆天


Autopoiesis开发的Aristotle X1 Verify 在两项关键的基准测试中取得了惊艳表现,超越了包括xAI的Grok4、谷歌的Gemini 2.5 Pro、OpenAI o3在内的主流AI模型。

 

这一成就的亮点在于,Aristotle X1 Verify不仅在复杂推理任务上表现卓越,更在“科学思维”方面取得了突破。

 

在推理基准测试GPQA Diamond上,Aristotle X1 Verify取得了92.4%的准确率。

 

GPQA Diamond包含198 道高难度的STEM领域(如物理、化学、生物学和经济学)问答题,旨在评估模型在需要深度理解和多步骤推理时的能力。


更值得关注的是,该系统在SimpleQA 基准测试中,也达到了96.1%的高准确率。


SimpleQA由OpenAI推出,专注于简短的事实性问题,用以衡量模型是否“知道自己知道什么”,以此解决当前AI普遍存在的“幻觉”问题。


在此之前,主流模型在SimpleQA上的表现均不佳,就连Gemini 2.5 Pro这样的顶级模型的准确率也仅仅为52.9%,尚不及格。


这暴露了当下主流AI的核心问题:它们擅长模仿推理,但缺乏真正的理解。


这些模型常常在缺乏知识的情况下“自信地编造答案”,无法区分自己真正掌握的知识和仅仅通过模式匹配得出的结论。


Autopoiesis认为,可错论(fallibilism)——认为所有科学知识都是暂时的,并且会根据新证据不断修正,是推动科学突破的基本原则。


公司因此构建了首个符合该原则的AI,将“自我验证”机制系统地融入到推理之中。


当证据不足时,模型会承认其局限性;当面临多种理论时,模型会进行适当权衡;当计算涉及不确定性时,模型会通过推理来传递这种不确定性。


如此,AI具备了识别自身局限性的能力,避免自信地给出错误答案。


Autopoiesis强调,这种能力并非可有可无,而是构建科学超级智能(Scientific superintelligence)的根本要求。


公司相信,通过将怀疑嵌入到推理的每一层,可以为AI赋能科学发现奠定基础,使其最终能够自主操作实验室,并进行超越人类想象的科学发现。


目前,该模型已向部分研究人员开放免费提前体验,名额有限,可以打开下方链接进行申请。


https://autopoiesis.typeform.com/to/Ub9gjetp?typeform-source=autopoiesis.science


02年少年创业,8人团队打造强大AI科学家

 

Autopoiesis的创始团队,横跨“老中青”三代。


公司首席执行官Joseph Reth,出生于2002年,他的同龄人才刚刚大学本科毕业,而他已经是一名经验丰富的AI领域创业者了。


AI「亚里士多德」首战封神!跑分碾压所有主流大模型,00后辍学天才创立,打造科学超级智能!


他的人生时钟,每一步都要比普通人更早。


在美国,社区大学的入学年龄一般为18周岁,个别地区可以放宽到16周岁。而Joseph Reth在14岁时便进入莫德斯托初级学院(Modesto Junior College),学习计算机。


之后他进入旧金山州立大学,同样是计算机科学专业,但也许是看到了更好的创业机会,他选择中途辍学。


16岁,他创办了数字营销公司RethDigital,用AI重构品牌广告代理,投放在TikTok、Instagram和Twitter等平台。 


到2021年,RethDigital的年度经常性收入(ARR)已经达到110万美元,客户包括知名付费电视网HBO、美国最大的有机食品超市Whole Foods等知名企业。


尽管在利用AI进行营销方面做得有声有色,但他的志向远不止于此。


2022年,Joseph Reth创立了Lossless Research,致力于通过创建AI系统来揭开人类意识的奥秘。


他将目光锁定到了如何创造出拥有类似人类意识的AI,探索实现这一目标所需的计算和架构要求。 


在这一段创业历程,他已不再局限于AI应用层面,而是深入探索AI的底层机制,这很可能为日后Autopoiesis 的创立埋下了伏笔。


AI「亚里士多德」首战封神!跑分碾压所有主流大模型,00后辍学天才创立,打造科学超级智能!


图:Joseph Reth(左)、Larry Callahan(中)和Eike Gerhardt(右)

 

公司首席商务官Eike Gerhardt,曾长期在德意志银行任职,并曾担任Targobank金融顾问和Schumpeter Ventures投资经理,他还是蒂宾根大学的讲师。


公司首席科学家Larry Callahan,拥有芝加哥大学化学博士学位,在FDA工作超过16年,负责全球物质注册系统(Global Substance Registration System)的开发,还曾担任Trials of Life首席科学家,致力于提高临床研究的效率和透明度。


目前,Autopoiesis的团队由8位成员组成,公司正在招聘更多研究人员和工程师,加速构建AI辅助科学发现的基础,开发下一代模型。


Informed Ventures的合伙人Sunny Kumar对公司充满期待,认为其解决了科学家在使用AI时遇到的核心难题:如何可靠地生成准确结果并避免“幻觉”。


他表示,“科学超级智能”将以前所未有的方式加速科学发现,科学家应广泛采用值得信赖的AI助手,从而指数级推动研究进程。


超级人工智能,颠覆科学发现


Anthropic 联合创始人兼CEO Dario Amodei曾预测,强大的AI将极大地加速生物学和神经科学的发展,将原本需要50-100 年才能实现的突破,压缩到5-10 年内完成。


我们正在进入一个“压缩的21世纪”,AI 不再仅仅是数据分析工具,更将成为“虚拟生物学家”,设计实验、指导研究,甚至操作实验室机器人,将效率提高数十倍甚至更多。


这一愿景正逐步变为现实。


今年6月,斯坦福大学等多个机构联合发表的Biomni智能体,已经初步展现了 AI 在生命科学领域的“通用”能力,能够像真正的科学家一样,调用专业软件、查询数据库、甚至指导湿实验,自主执行跨越多个领域的复杂研究任务。


3月,Flagship Pioneering领投了Lila Sciences的2亿美元种子轮融资,展现了顶级机构对这一领域的看好。


成立于2023年的Lila Sciences致力于推出世界上第一个用于生命、化学和材料科学的科学超级智能平台和自主实验室,以快速扩展人类知识并突破当今可能的极限。


AI「亚里士多德」首战封神!跑分碾压所有主流大模型,00后辍学天才创立,打造科学超级智能!


在短短几年的开发中,Lila Sciences的平台在医疗、材料、环境等领域展示了超越人类的科学性能,包括:


  • 具有最先进推理能力的大语言模型,能对重要科学问题和科学情报进行搜索推理;
  • 产生优于市售疗法的最佳基因医学产品;
  • 发现和验证数百种用于广泛治疗靶点的新型抗体、肽和结合剂;
  • 在绿色氢气生产中产生独特的非铂族金属作为催化剂,而成本仅为当前商业催化剂的一小部分;
  • 设计用于工业规模碳捕获的新材料,并且具有更好的容量、热稳定性和动力学结合力。

 

可以预见,AI的不断发展,正推动人类在科学领域的探索迈入一个全新的时代


文章来自微信公众号 “ 智药局 ”,作者 世晨

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md