
上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型
上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型要让视频生成模型真正成为模拟真实物理世界的「世界模型」,必须具备长时间生成并保留场景记忆的能力。然而,交互式长视频生成一直面临一个致命短板:缺乏稳定的场景记忆。镜头稍作移动再转回,眼前景物就可能「换了个世界」。
要让视频生成模型真正成为模拟真实物理世界的「世界模型」,必须具备长时间生成并保留场景记忆的能力。然而,交互式长视频生成一直面临一个致命短板:缺乏稳定的场景记忆。镜头稍作移动再转回,眼前景物就可能「换了个世界」。
昨晚睡不着,我把四份最新AI纪要摊床上,越看越像四盘菜:Kimi那盘是精算师凉面,DeepSeek端上战略家佛跳墙,ChatGPT递来脱口秀炸酱面,Gemini则摆好外交官寿司。
大模型与多模态之间的关系,可以理解为大模型就像是人脑中的‘前额叶’,主要负责高级认知功能,但只有前额叶的大脑是无法处理复杂任务的,这就需要多个不同模型之间互相协调,从单纯的“前额叶”走向“完整的大脑”,从而处理更加复杂的现实任务。
就在刚刚,全球首个手机通用Agent,来了!
RoboNeo 拿下百万 MAU 后,美图财报依旧强势。7 月中旬,美图上线了面向影像领域的 AI Agent RoboNeo,并靠“emoji 小人”的社媒风潮获取了第一批用户,上线一个月左右的时间,已拿下 100W 左右的 MAU。美图又以极快的速度,推火了一款新产品。在 AI 时代,聚焦影像的美图,有点乘风起的意味,如其昨天发布的半年报。
近年来,扩散大语言模型(Diffusion Large Language Models, dLLMs)正迅速崭露头角,成为文本生成领域的一股新势力。与传统自回归(Autoregressive, AR)模型从左到右逐字生成不同,dLLM 依托迭代去噪的生成机制,不仅能够一次性生成多个 token,还能在对话、推理、创作等任务中展现出独特的优势。
虽然大模型的优越表现令人瞩目,但动辄高昂的使用成本也让不少用户望而却步。 为平衡性能与成本,上海人工智能实验室科研团队基于前期技术积累,开源推出了Avengers-Pro多模型调度路由方案。
智谱今天,终于发了AutoGLM2.0。 想一想,AutoGLM1.0的版本,距离我第一次首发写他们,已经过去快10个月了。
京东云于今年 7 月正式开源了JoyAgent‑JDGenie,这是业内首个“完整产品级”通用多智能体系统——覆盖前端/后端/智能体框架/执行引擎以及众多子 Agent(如报告、代码、PPT 智能体);在权威 GAIA 基准测试中取得 75.15% 整体准确率,,显著超越 OWL、OpenManus 等同类开源产品。
早在"AI Agent"这一术语出现之前,安娜·摩纳哥(Anna Monaco)就已经开始构建 AI Agent系统。在开发了众多聊天机器人后,她开始寻找更适合 AI Agent的其他交互界面,最终将目光锁定在了电子表格上。