Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏
Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏刚刚,Claude Opus 4.5问世,主打编码、Agent与computer use。Opus 4.5在前端开发、视觉能力上显著提升,更擅长使用电脑。在深度研究、PPT制作与电子表格处理等日常任务方面的表现也全面升级。
刚刚,Claude Opus 4.5问世,主打编码、Agent与computer use。Opus 4.5在前端开发、视觉能力上显著提升,更擅长使用电脑。在深度研究、PPT制作与电子表格处理等日常任务方面的表现也全面升级。
全球编码王座,一夜易主。深夜,Claude Opus 4.5重磅出世,编程实力暴击Gemini 3 Pro、GPT-5.1。才一周的时间,AI圈就完成了一次闭环式迭代。它不仅编程强,而且智能体和计算机使用(computer use)能力也是一流。
当地时间 10 月 31 日,由于涌入预印本平台 arXiv 的计算机科学(CS,Compute Science)的由 AI 生成或 AI 辅助生成的综述论文和立场论文数量变得难以管理,arXiv 更新了关于综述论文和立场论文的审核规则,要求这两类论文必须被期刊或会议接收并完成同行评审之后才能提交到 arXiv 的 CS 类别。
最近,美国多家 AI+医疗明星公司接连传来进展:OpenEvidence(医学知识搜索) 的 ARR 已突破 1000 万美元,每天有上万名医生付费使用;Abridge(临床文档转写) 完成 2.5 亿美元融资;Tempus AI(肿瘤学与精准医疗) 已在纳斯达克上市,市值一度超过 60 亿美元;Hippocratic AI(医疗专属大模型) 估值也已达数十亿美元。
近日 Kimi 也开始小规模内测一个 Agent 新品,名称在一众 Agent 友商中,很有人文味与自信, 叫做:「OK Computer」。 阅尽千帆,本文仍想通过一系列典型 Agent 任务实测,为你解析 Kimi OK Computer 的真实水平。
最新案例显示,由三位前OpenAI 员工于五月创立的 Applied Compute 公司,在完成上一轮估值 1 亿美元的融资仅三个月后,正以 5 亿美元估值洽谈新一轮融资。
Kimi发布全新Agent模型OK Computer !这个新Agent名字好像还有点儿来头啊……别的先不说,OK Computer到底OK不OK?实测一下!
你有没有想过,AI助手的终极形态应该是什么样的?是更聪明的聊天机器人,还是能真正帮你完成复杂工作的数字员工?今天,当我体验了Kimi刚刚发布的"OK Computer" Agent模式后,我突然意识到:AI行业可能正在经历一次根本性的范式转变——从"回答问题"到"完成任务"。
今天,月之暗面正式发布全新 Agent,产品名别具一格:「OK Computer」。在大模型厂商进入战略对决关键时刻,这声“OK”,到底 O 不 OK?
为了回答这一问题,来自牛津大学、Meta 超级智能实验室等机构的研究者提出设想:推理计算是否可以替代缺失的监督?本文认为答案是肯定的,他们提出了一种名为 CaT(Compute as Teacher)的方法,核心思想是把推理时的额外计算当作教师信号,在缺乏人工标注或可验证答案时,也能为大模型提供监督信号。