超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发
超越Claude Mythos和GPT-5.5!斯坦福Agent验证框架拿下SOTA,Transformer作者转发Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架,该方法是一种通用的验证机制,可与任意Agent Harness和模型结合。
搜索
Transformer论文作者Lukasz Kaiser以及GAN作者Bing Xu转发关注了一项工作——LLM-as-a-Verifier验证框架,该方法是一种通用的验证机制,可与任意Agent Harness和模型结合。
Google放出重磅整合:Gemini正式上线「Notebooks」功能,与NotebookLM实现知识库双向同步——你在任意一端添加的资料,另一端自动出现。The Verge直言这是在硬刚ChatGPT Projects。Gemini团队成员Logan Kilpatrick发推官宣,4.4万人围观,近900人点赞。AI助手的「第二大脑」时代,来了。
沉寂许久的 Ian Goodfellow,终于再次现身。
Aishwarya Naresh Reganti 和 Kiriti Badam 曾在 OpenAI、Google、Amazon、Databricks 等公司参与构建并成功推出了 50 多个企业级 AI 产品。最近,他们在播客节目中,与主持人 Lenny 细致分享了当前 AI 产品开发中的常见陷阱与成功路径。基于该播客视频,InfoQ 进行了部分删改。
自从开年谷歌首席工程师 Jaana Dogan 公开称赞 Claude Code 后,它就又火了一把。
2026年开局,Anthropic未发一弹已占先机!谷歌首席工程师Jaana Dogan连发多帖,高度赞扬Claude Opus 4.5——没有图像/音频模型、巨大的上下文,仅有一款专注编码的Claude,Anthropic依旧是OpenAI谷歌最有力竞争者。
人类首个AI创作型导演诞生!Josh Wallace Kerrigan用GenAI工具,构建Neural Viz的外星宇宙,避免硬碰AI短板,转而实验伪纪录片形式。
Karpathy可能给出了美国AI圈最保守的估计:「AGI还需等待10年。」相比于预测本身,美国AI自媒体节目「TBPN」主持人John Coogan更关心的是,当所有人都开始相信这个时间点,会带来怎样的影响。
我们长期把LLM当成能独闯难关的“单兵”,在很多任务上,这确实有效。
1.3千万亿,一个令人咂舌的数字。这就是谷歌每月处理的Tokens用量。据谷歌“宣传委员”Logan Kilpatrick透露,这一数据来自谷歌对旗下各平台的内部统计。那么在中文世界里,1.3千万亿Tokens约2.17千万亿汉字。换算成对话量,一本《红楼梦》的字数在70-80万左右,相当于一个月内所有人和谷歌AI聊了近30亿本《红楼梦》的内容。