手机AGI助手还有多远?移动智能体复合长程任务测试基准与调度系统发布
手机AGI助手还有多远?移动智能体复合长程任务测试基准与调度系统发布多模态大模型 (MLLM) 驱动的 OS 智能体在单屏动作落实(如 ScreenSpot)、短链操作任务(如 AndroidControl)上展现出突出的表现,标志着端侧任务自动化的初步成熟。
多模态大模型 (MLLM) 驱动的 OS 智能体在单屏动作落实(如 ScreenSpot)、短链操作任务(如 AndroidControl)上展现出突出的表现,标志着端侧任务自动化的初步成熟。
大家好,我是歸藏(guizang),今天给大家带来 Lovart 的正式版一手介绍和体验。Lovart 我们介绍过很多次了,但是每次都会有新东西。 昨晚看到他们的推特,发现发了正式版,就赶紧试了一下。 今天这个设计 Agent 终于变成了一个完全体,而且这次的更新依然非常牛批。
现有Mobile/APP Agent的工作可以适应实时环境,并执行动作,但由于它们大部分都仅依赖于动作级奖励(SFT或RL)。
大家好我是歸藏(guizang),今天给大家带来秘塔深度研究的体验。
疯狂,太疯狂了~ 大神卡帕西预测的「下一代GUI系统」这就水灵灵地实现了?!
大家好,我是歸藏(guizang),今天展示一下我用 Kimi K2 实现的一套组件库,以及K2 替代 Claude Code 的默认模型的教程补充。
大家好,我是歸藏(guizang),熬夜给大家带来 Kimi K2 模型和提升K2模型的CC+K2邪修教程。大家好,我是歸藏(guizang),熬夜给大家带来 Kimi K2 模型和提升K2模型的CC+K2邪修教程。
vivo AI Lab发布AI多模态新模型了,专门面向端侧设计,紧凑高效~
MLA-Trust 是首个针对图形用户界面(GUI)环境下多模态大模型智能体(MLAs)的可信度评测框架。该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系,精心设计了 34 项高风险交互任务,横跨网页端与移动端双重测试平台,对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估,系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。
本文第一作者是上海交通大学计算机学院三年级博士生程彭洲,研究方向为多模态大模型推理、AI Agent、Agent 安全等。通讯作者为张倬胜助理教授和刘功申教授。