AI资讯新闻榜单内容搜索-GUI

腾讯纯文本LLM训视觉encoder，拿捏图表长视频，达到开源小模型SOTA！

打破多模态视觉+语言拼接套路！

来自主题: AI技术研报

7405 点击 2026-03-19 10:22

ICLR 2026 | LongHorizonUI：让 GUI 智能体不再"半途而废"——面向长链路任务的统一鲁棒自动化框架

在移动端和桌面端的日常使用中，许多操作并非点一下按钮就能完成。预订一场会议、在游戏商城中购买并装备一件道具、又或者在多个应用之间完成一组连贯的工作流 —— 这些任务通常需要十几步甚至几十步的连续交互。

来自主题: AI技术研报

6941 点击 2026-03-13 09:57

基础模型又一关键拼图，腾讯混元发布训练新范式「无相」：引入功能性记忆，打破静态权重枷锁

3月6日，腾讯混元发布了一篇名为“HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing”的技术报告。提出了一种崭新的功能性记忆（functional neural memory）范式（weight unleashing），

来自主题: AI技术研报

9651 点击 2026-03-07 11:08

给GUI Agent装上「世界模型」：阿里通义用混合数据+统一思维链，让模型学会预判屏幕变化

伴随多模态大模型的发展，GUI Agent正成为人机交互的新范式。

来自主题: AI技术研报

9684 点击 2026-03-04 13:43

支持远程操控和通用GUI操作，开源版桌面虚拟同事Open Cowork来了！

我们开源的 Open Cowork，正是一次面向 “桌面端虚拟同事” 的实践：一键安装、无需写代码，让模型在安全沙箱里操作你的工作空间，既能产出 PPT/Word/Excel/PDF 等专业成果，也能通过 GUI 直接操作电脑完成更复杂更通用的跨应用流程。

来自主题: AI技术研报

9912 点击 2026-03-02 10:00

逼走 OpenClaw 后，Anthropic 还是买了一家 Agent 公司

2026 年 2 月 15 日，Sam Altman 宣布：Peter Steinberger 加入 OpenAI，负责下一代个人 Agent。11 天后，Anthropic 宣布收购 Vercept。但这两件事放在一起看，说的是同一件事：AI 的战场正在发生一次非常具体的迁移——从「谁的模型更聪明」，到「谁能让 AI 真正控制一台电脑」。

来自主题: AI资讯

9188 点击 2026-02-26 17:15

速递｜Anthropic买下被Meta挖角联合创始人的旧部，人机交互AI初创Vercept

Anthropic 周三宣布已收购 Vercept，这家 AI 初创公司团队核心成员与西雅图科技界的多家知名企业渊源深厚。此次收购是继去年 12 月 Anthropic 收购编程智能体引擎 Bun 以推动 Claude Code 规模化发展之后的最新动作。

来自主题: AI资讯

10608 点击 2026-02-26 12:20

霸榜SOTA，蚂蚁开源UI-Venus-1.5，GUI智能体办事时代加速到来

GUI 智能体最近卷到什么程度了？Claude、OpenAI Agent 及各类开源模型你方唱罢我登场，但若真想让 AI 成为「能在手机和网页上稳定干活的助手」，仍绕不开三大现实难题：

来自主题: AI技术研报

10152 点击 2026-02-20 13:10

ICLR 2026 | 异常需要定义！中传团队提出开放世界视频异常检测新范式

针对这一问题，中国传媒大学媒体融合与传播国家重点实验室的吴晓雨教授团队于 ICLR 2026 发表论文《Language-guided Open-world Video Anomaly Detection under Weak Supervision》，直面 VAD 领域的核心问题 —— 什么是异常？

来自主题: AI技术研报

9135 点击 2026-02-14 10:03

字节开源GUI Agent登顶GitHub热榜，豆包手机核心技术突破26k Star

GitHub最新热榜榜首，来自字节。

来自主题: AI资讯

10906 点击 2026-02-09 16:03