循环即实验室:八个AI自主研究系统横评
循环即实验室:八个AI自主研究系统横评今天 Interesting Engineering++ 发了一篇长文,把这些系统放在同一个分析框架里做了横评,回答的就是这些问题。原文地址:interestingengineering.substack.com/p/the-loop-is-the-lab
今天 Interesting Engineering++ 发了一篇长文,把这些系统放在同一个分析框架里做了横评,回答的就是这些问题。原文地址:interestingengineering.substack.com/p/the-loop-is-the-lab
近日,上海人工智能实验室联合南京大学、香港中文大学及上海交通大学,将OpenClaw的成功应用于多模态生成领域。他们提出GEMS(Agent-Native Multimodal Generation with Memory and Skills),激发小模型潜力,甚至让6B小模型在部分任务超越了Nano Banana 2。
字节Seed最新研究,让大模型能“原地改参数”了。既不用改模型结构,也不用重新训练,还跑得很快。具体是这么个情况。智能体时代嘛,大家都知道模型们面对的任务开始变得越来越复杂、上下文越来越长。
多模态大推理模型的幻觉,很多时候并非「没看见」,而是在最不确定的推理阶段想偏了。最新研究发现,模型在生成because、however、wait等transition words时,往往处于高熵关键节点,更容易脱离图像证据、转向语言脑补。LEAD在高熵阶段不急于输出单一离散token,而是先在潜在语义空间保留多种候选推理方向,并通过视觉锚点持续拉回图像证据,显著缓解幻觉。
2026 年第一季度,它和另外四种完全不同的 Agent 产品形态在同一个窗口期同时冒了出来。OpenClaw 走个人助理、Cowork 走办公协作、Codex App 走长程工程任务、Perplexity Computer 走统一工作站、腾讯云 ADP 走企业平台。
最近,计算机视觉领域的顶级会议 CVPR 2026 的 NTIRE 鲁棒性 AIGC 图像检测挑战赛( Robust AI-Generated Image Detection in the Wild Challenge )结果出炉。蚂蚁集团 AI 安全实验室的队伍 MICV 凭借在鲁棒性测试样本上 ROC AUC 达到了惊人的 0.9723,成功摘得「复杂真实场景鲁棒性样本测试」挑战赛的冠军。
最近,来自Meta与University of Copenhagen的研究者提出了OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory(收录于CVPR 2026)。这项工作聚焦于一个核心问题:如何在生成多镜头视频时,有效保留长程跨镜头上下文,从而实现更强的叙事一致性。
Anthropic 刚刚给所有开发者发了一张快车票。Claude Managed Agents 正式公测,你不需要自己搭 Docker、写沙箱、管状态、做错误恢复——三个 API 调用,十分钟,一个生产级智能体就跑起来了。
前天刷 X,刷到一个叫 Farza 的老哥,做了件牛 X 的事。
2026 年,44% 的盈利 SaaS 产品是一个人做出来的。有人一个人搞了一组微型产品,月入 2.8 万美元。有人辞掉年薪 4.2 万的工作,8 个月后两个产品月入 3 万。
多 Agents 协同方案成了现在 AI 圈的主流玩法,以前是一个 Agent 能搞定一个人要做的事,现在是多个 Agent 完成一个团队要做的事。
在这篇文章里,我想介绍编码智能体(Coding agents)以及 Agent harnesses 的整体设计:它们是什么、怎么运作,以及各个零件在实践中怎么拼到一起。
Nav Toor 的上一篇上下文工程文章火了——上百万人阅读,上千人私信他同一个问题:"道理我都懂了,但我到底该打什么字?"
AI 写代码越来越快,真正的问题却越来越尖锐:生成成本在下降,正确性却不会自动提升。
前阵子有个深夜,我同时开着五个Claude对话框。
超快速 AI 生图领域再破性能天花板!香港科技大学唐靖团队、香港科技大学(深圳分校)胡天阳、小红书 hi-lab 罗维俭提出全新通用强化学习框架 TDM-R1,精准破解超快速扩散生成的核心痛点 —— 仅需 4 步采样(4 NFE),便将组合式生成指标 GenEval 从 61% 飙升至 92%,
过去两年,图像生成模型在质感和审美上一路狂飙,但大多仍是 “直接出图” 的范式。
刚刚,Claude推出“企业版”服务,发布Claude Managed Agents,结果被开源项目“开团秒跟”!
Lindy.ai 的创始人 Flo Crivello 做了件挺大胆的事:把 AI 助理塞进了 iMessage。不是做一个新 App,不是搞一个聊天界面,就是直接出现在你的短信列表里,像一个真人助理一样跟你对话。
AI交互的「机械感」消失了!今天,豆包甩出原生全双工语音大模型Seeduplex,不仅能边听边说,甚至能听懂你在思考时的「卡壳」,就算环境再吵也不怕,抗干扰能力直接拉满。
不讲 Vibe Coding,而是 Vibe Working。
在人工智能研究中,许多研究者将大量时间投入到为那 1% 的性能提升反复调参与实验迭代之中。
让大模型真正走进现实世界,是当下最迫切的需求之一。
RL之后,大模型为什么更容易「越训越单一」?面对五花八门的改进思路,也许答案并不复杂:先试着改一改KL项。
DeepXiv 是专为智能体设计的科技文献基础设施,把论文搜索、渐进式阅读、热点追踪和深度调研变成可调用、可编排、可自动化的能力。
我认真看 Hermes Agent,不是因为它2.9万Star,而是因为那条 hermes claw migrate。一个新框架敢把"把旧用户整套资产搬过来"做成默认入口,这事本身就很说明问题。
我确实对运行 OpenClaw 持相当怀疑的态度。…… 整个生态给人的感觉就像是一个彻底的狂野西部,在安全性上简直是一场噩梦。 —— Andrej Karpathy
对本地部署玩家,尤其是Mac用户来说,长上下文推理最大的痛点往往不是“模型不够聪明”,而是稍微多用点上下文,统一内存就被撑爆了”,这一点在最近的Gemma-4 31B的部署中尤为明显,在同等上下文的情况,显存占用比Qwen3.5-27B高约一倍不止,直接劝退了不少人。但好消息是,谷歌近期提出的TurboQuant KV缓存量化算法,正是为了解决这个痛点而生。
在具身智能领域,可供性(affordance)预测 —— 即让机器人从视觉观测中理解 "在哪里操作"(接触点)与 "如何操作"(动作方向)—— 是实现精细化机器人操作的基础之一。精细操作要求机器人不仅能定位到物体的可交互区域,更要掌握接触后的准确运动方向,例如判断抽屉把手的精确拉动方向完成开合。
穆迪最新报告揭示了两条平行宇宙:要么AI让生产率狂飙,失业率降至3.8%;要么泡沫破裂,460万人失去饭碗。Anthropic CEO预警白领消亡,经济学家却说还没到时候。2026年1月创纪录的裁员数据,似乎正在验证前者。