AI资讯新闻榜单内容搜索-GUI

BrowserBC：克隆人类点击，让一次网页操作转化为所有Agent的能力

Agent从来不是不会用浏览器，只是浪费太多时间在探索——BrowserBC把人类轨迹蒸馏成可复用Skill来完成Behavior Cloning，用户点一遍，Agent照着就能跑通。Einsia AI旗下Navers Lab发布的开源项目BrowserBC给出的答案，是一条三步范式：录制→转写成Skill→交付执行。

来自主题: AI资讯

9238 点击 2026-06-27 23:58

扩散模型自引导新范式：直接交换token就能变强！ | CVPR‘26 Oral

扩散模型又被玩出新花样了。

来自主题: AI技术研报

8713 点击 2026-06-25 15:00

独家｜让AI接手真实操作，字节系团队、GUI Agent平台Core-Mate获数千万元融资

独家获悉，GUI Agent（图形用户界面智能体）执行平台「Core-Mate」近日宣布完成数千万人民币融资。核心团队主要来自字节跳动，成员在用户产品、业务增长和商业化落地中积累了系统经验。在团队看来，下一代 AI 产品的关键不只在模型能力，也在入口、场景和用户行为。

来自主题: AI资讯

12342 点击 2026-06-11 11:46

这个Skill让AI突破了反爬虫检测，最后一块短板补上了

如何让 Agent 把浏览器用得更 6，一直是一个还没有完美解答的课题。周末躺床上刷 GitHub trending，看到一个项目名字叫 BrowserAct。简介写着：AI Agent 操作真实浏览器。

来自主题: AI资讯

11173 点击 2026-06-11 00:44

浏览器秒变手机！中科院开源Agent训练场，微信、原神都能跑

中科院自动化所模式识别实验室开源MobileGym，运行在浏览器里的高并发安卓仿真平台，完全自定义，告别模拟器风控与真机成本，一个平台搞定Mobile Agent训练与评测，甚至还能玩原神！

来自主题: AI技术研报

6246 点击 2026-06-02 16:17

GUI Agent「记与学」双修，长程任务有了专属记忆增强型自进化框架

本文团队长期从事负责任的人工智能与人工智能赋能社会科学相关研究，围绕视觉生成大模型安全治理、智能体安全等方向开展系统性工作，相关成果发表于AAAI、ICML、TMM 等国际期刊与会议。

来自主题: AI技术研报

8417 点击 2026-06-02 11:23

爆肝两周，我把 Codex 最全实战指南开源了

大家好，我是苍何。今天，我们正式推出 CodexGuide。

来自主题: AI资讯

8331 点击 2026-06-01 10:29

GUI Agent轨迹获取新范式：有限状态机合成无限轨迹数据，平均每条轨迹成本低至0.04美元

训练一个真正会用网页的GUI Agent，最自然的思路通常是：去真实网站上操作，收集轨迹，再拿来训练。

来自主题: AI技术研报

10983 点击 2026-05-29 09:40

开源个 Skill｜彻底解决小红、小绿书配图难题

前段时间开源了 guizang-ppt-skill，之后我自己用它做内容的时候发现一件事。

来自主题: AI技术研报

7093 点击 2026-05-28 11:25

Hallo-Live 让文本驱动音视频数字人迈入实时流式生成

最近，来自上海创智学院、复旦大学等机构的研究者提出了 Hallo-Live，试图正面解决这个矛盾。论文于 2026 年 4 月 26 日发布在 arXiv。该方法将异步双流扩散（Asynchronous Dual-Stream Diffusion）与人类偏好引导蒸馏（Human-Centric Preference-Guided DMD）结合起来

来自主题: AI技术研报

8858 点击 2026-05-24 10:20