
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。
Scale AI的新软件工程基准SWE-BENCH PRO,出现反转!表面上看,“御三家”集体翻车,没一家的解决率超过25%: GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。
这家由 Khosla Ventures 领投的AI原生财务规划与分析(FP&A)平台公司,正在彻底改变企业财务团队的工作方式。自从 A 轮融资以来,Aleph 的增长速度达到了惊人的 10 倍,为 Zapier、Turo、Harvey、Chess.com 等行业领先公司的财务工作流程提供支持。但更重要的是,他们不仅仅在创造一个软件产品,而是在塑造一种全新的财务专业人员工作模式
Tool-Calling作为Agent的核心模块,智能体的双手,这项关键能力允许 LLM 调用外部函数,例如应用程序接口(APIs)、数据库、计算器和搜索引擎,决定了AI Agent的可执行边界。
一个崭新的战场——AI支付又慢慢浮出水面。Stripe宣布将推出自己的支付L1,Tempo,Paypal宣布投资了Kite.AI,而就在前几天,Google宣布将推出自己的开源支付协议Agent Payments Protocol(AP2, 智能体支付协议),并将于Coinbase之前推出的X402一起合作,将X402整合到Google自己开发的A2A框架中去。
阿里巴巴集团安全部联合清华大学、复旦大学、东南大学、新加坡南洋理工等高校,联合发布技术报告;其理念与最近OpenAI发布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不谋而合。
大家好,我是袋鼠帝。 一个从云南昭通小县城走出来的普通人,一个深漂了5年的程序员。 2023年底,我做了个决定,一个至今想起来都觉得无比正确的决定:裸辞,离开深圳,回昆明,All In AI。
谢集,浙江大学竺可桢学院大四学生,于加州大学伯克利分校(BAIR)进行访问,研究方向为统一多模态理解生成大模型。第二作者为加州大学伯克利分校的 Trevor Darrell,第三作者为华盛顿大学的 Luke Zettlemoyer,通讯作者是 XuDong Wang, Meta GenAl Research Scientist、
昨天看到一条融资新闻,Meela 完成了350万美元种子轮融资,Bain Capital Ventures 领投。乍一看,这又是一家普通的AI创业公司,但当我深入了解后,发现他们在做一件让我意想不到的事:专门为养老院的老人打造AI电话伴侣。
Epoch AI 最近受 Google DeepMind 委托编写了一份分析报告,探讨这种规模扩张(Scaling)在计算、投资、数据、硬件和能源方面将带来哪些影响。在报告中,进一步探讨了这种规模扩张将赋予的未来 AI 能力,尤其是在科研领域,而这正是领先 AI 开发者关注的重点。
你知道目前一共有多少个大模型吗? Hugging Face 上已经有超过 70 万个大模型了。 即使抛去不好用的,被 Artificial Analysis 收录的大模型也有 269 个。不仅模型琳琅满目,供应商也是多得让人眼花缭乱。