你的AI Agent越用越蠢?港中大、浙大戳破「记忆」的谎言
你的AI Agent越用越蠢?港中大、浙大戳破「记忆」的谎言你是否在使用Agent工作或者写代码时,总感觉上下文不够用?或者感觉反复使用Agent时并没有变得更聪明?感觉目前的记忆方案仍然不够用?今日,香港中文大学联合浙江大学发布的一篇论文关注了这个问题,并引起了学术界广泛讨论:你以为Agent在「记忆」,其实只是在记备忘录。
搜索
你是否在使用Agent工作或者写代码时,总感觉上下文不够用?或者感觉反复使用Agent时并没有变得更聪明?感觉目前的记忆方案仍然不够用?今日,香港中文大学联合浙江大学发布的一篇论文关注了这个问题,并引起了学术界广泛讨论:你以为Agent在「记忆」,其实只是在记备忘录。
AI shopping 的热度正在升温。
最近,京东和中科院信工所展开了Self-Taught RLVR的系列研究,并连发三篇后训练新作。
Sam Altman 今天在 X 上扔出一个数字:ChatGPT Images 2.0 在印度已经生成超过 10 亿张图。距离产品发布只有 27 天。TechCrunch 和第三方数据验证了印度确实是最大市场——但全球增长远没有那么均匀,这更像一场区域性起飞。
经常切换使用CC、Codex、OpenClaw这类Agent的人会发现:同一个模型,放进不同系统里,表现可能完全不同。
近日,能量桥科技(上海)有限公司(以下简称“能量桥”)宣布完成新一轮融资,由 Monolith 砺思资本领投,中科创星跟投。
近年来,3D 高斯泼溅(3D Gaussian Splatting, 3DGS)凭借其卓越的新视角合成能力和实时的渲染效率,极大地推动了神经渲染技术的发展。然而,当研究者试图直接从 3DGS 中提取精确的 3D 几何表面(Mesh 等)时,往往会面临严重的几何失真问题。
刚刚,国际权威市场调研机构英富曼(Omdia)发布最新的《中国AI云市场份额2025》报告。2025年中国AI云市场总规模达567亿元人民币,其中,阿里云在AI IaaS和MaaS-MPS两大子市场均位列第一,总份额从上半年的35.8%上涨至38.1%,整体稳居第一,超过二到四名总和。
「以 1/10 的成本,性能几乎追平 Claude Opus 4.7 这个级别的模型。」
传统API集成已死!在这个Agent满地跑的时代,被低估的搜索终于迎来了第四次范式转移。AnySearch的问世,让Agent告别了单一的网页总结功能,转而通过获取可信的结构化信息,真正具备触达并连接现实世界的能力。
最近一段时间,Agent 又一次成为 AI 圈最热的关键词。
过去,一部动画短片的诞生往往需要数月甚至一年的漫长周期。从分镜、原画、建模到渲染,每一个环节都堆砌着密集的人力与时间成本。但在上周末,北京三里屯的一场活动,彻底颠覆了这一传统认知。
Lucius 是一家做企业级 AI 员工的公司,但创始人赵赫不太喜欢「AI 员工」这个标签。他更愿意说,Lucius 做的是企业的 Context Layer,一套让 Agent 能够进入组织、理解现场、遵守边界、持续调度任务的组织调度系统。
话说回来,在流连于深圳蛇口美丽的11元/小时的网吧包间外,我也去了一些硬件公司,和伟大的精神状态更是疯狂的电子佬进行了一些物理交流。以下,请欣赏我的深圳见闻。在电子佬精神代表的虾哥办公室,见到了一整个书架的小智AI。以防大家不知道,小智AI应该出货量最大的AI硬件,卖出了上百万台。
你有没有过这样的时刻——脑子里蹦出一个App的好点子,但苦于不懂代码,只能看着它从灵光一闪变成一声叹息?腾讯最近悄悄上线了一款叫 “吐司” 的产品,正在试图让这个问题成为历史。
昨天,微信读书 Skill 词条登上热搜。
DeepSeek最新热招岗位已上线:Agent Harness产品经理。
大语言模型真的只能走“预测下一个token”的路子吗?
OpenAI 的 Codex App 正式开放了远程控制功能。
xbench,就是红杉自己弄的那个中立评测lab,刚刚又整了个新活:让 AI 做药企的数据分析,跟人类实习生比个高低,然后遥遥领先的赢了
让机器人学会思考。
一周前,张小珺录了一期和姚顺宇的播客。
嗨大家好!我是阿真! 今天分享一个最近让我眼前一亮的产品,Lucius。 如果你刚好做了个产品,已经开始出海赚美刀,有了产品的 Discord、Slack、Telegram、或者官网在线客服,准备把海外用户社区运营起来的话,那么不管做的是 AI 工具、SaaS、Web3 应用、硬件出海、内容平台、还是任何 To C / To B 的出海生意,只要你的客服工具开在海外,就大概率会遇到类似的场景。
今年以来,Palantir股价已累计下跌近20%。
我已经回不去了
全行业都在押注多Agent。
近年来,大语言模型在「写得长、写得顺」这件事上进步飞快。但当任务升级到真正复杂的推理场景 —— 需要兵分多路探索、需要自我反思与相互印证、需要在多条线索之间做汇总与取舍时,传统的链式思维(Chain-of-Thought)往往就开始「吃力」:容易被早期判断带偏、发散不足、自我纠错弱,而且顺序生成的效率天然受限。
上周,我站在公司的白板前面,边画边写。
近年来,Chain-of-Thought(CoT)推理已经成为提升大语言模型和多模态大语言模型复杂问题求解能力的重要技术路径。
过去一年,Agent学会了两件事:会用工具、会调用Skill。