狂奔AGI,Claude年终封王!自主编码近5小时震惊全网
狂奔AGI,Claude年终封王!自主编码近5小时震惊全网2025年就要结束了,原来真正的高手,隐藏在「民间」!不是谷歌、不是OpenAI,是Anthropic王者编程模型Claude Opus 4.5。在METR最新公布报告称,Claude Opus 4.5已能够持续自主编码「长达5小时不崩」。
2025年就要结束了,原来真正的高手,隐藏在「民间」!不是谷歌、不是OpenAI,是Anthropic王者编程模型Claude Opus 4.5。在METR最新公布报告称,Claude Opus 4.5已能够持续自主编码「长达5小时不崩」。
近期,阿里巴巴 ROLL 团队(淘天未来生活实验室与阿里巴巴智能引擎团队)联合上海交通大学、香港科技大学推出「3A」协同优化框架 ——Async 架构(Asynchronous Training)、Asymmetric PPO(AsyPPO)与 Attention 机制(Attention-based Reasoning Rhythm),
现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一个创新的端到端大型统一Transformer,首次将空间重建与实例级上下文理解融为一体。
近日,一位开发者在 GitHub 上公开警告称,字节跳动旗下 AI 编程环境 Trae IDE 存在在用户未明确知情的情况下,将数据上传至字节服务器的行为,即便用户已在设置中手动关闭遥测(Telemetry)功能。
Agent能力每7个月翻一番!
LLM正以前所未有的速度进化:METR发现,它们的智能每7个月就翻一番。到了2030年,一个模型可能只需几小时,就能搞定人类工程师几个月的工作。别眨眼,你的岗位或许已在倒计时中。
金融与会计服务初创企业 Simetrik 获得由高盛领投的 3000 万美元新融资。此次融资是对该公司2024 年 2 月披露的 B 轮融资的追加。当时该公司已从由高盛资产管理的,成长型股票团队领投的投资者处筹集了 5500 万美元。
随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能?如何建立更全面、更可靠的 AI 评估体系?北京大学宋国杰教授团队最新综述论文(共 63 页,包含 500 篇引文),首次尝试系统性梳理答案。
AI Agents(智能体)也有自己的“摩尔定律”了?!就在最近,Nature报道了一项来自非营利研究机构METR的最新发现:AI在完成长期任务方面的进步速度惊人,其时间跨度大约每七个月翻一番。
国产AI几何模型性能达IMO金牌水平,打平谷歌DeepMind最新AlphaGeometry系列——