微软研究院官宣开源多模态AI——Magma模型。
首个能在所处环境中理解多模态输入并将其与实际情况相联系的基础模型。
该模型近期已被计算机视觉顶会CVPR接收,只要给定一个目标描述,Magma就能制定计划、执行行动,无论是在数字界面中还是物理世界里,都能展现出灵活而高效的交互能力。
比如在网页中找到天气信息并打开飞行模式,或是执行分享、发送消息等多步骤操作。
再比如在真实机器人任务中,让机器人移动桌面上的“热狗”模型、把蘑菇模型放到锅里,或者将抹布从左至右推开。
相比其它模型,它在实际滚动演示中更加“丝滑”,出错率更低。
或者在多模态理解和对话任务中,赢了眼前国际象棋比赛(左),或根据当前环境提出放松几个小时的建议(右)。
甚至还能描述视频中发生了什么动作,并预测接下来会发生什么。
目前该模型以MIT许可证在GitHub上开源。
传统的视觉语言(VL)模型主要关注图像与文本信息的理解,而Magma则在此基础上进一步拓展,加入了空间与时序智能,赋予AI更强的行动决策能力。
微软研究院团队指出,Magma在视觉理解和语言理解的基础上,又让AI具备了在视觉空间世界进行动作规划与执行的能力。
这意味着,Magma能够胜任从UI界面导航到机器人精准抓取与移动等更多“跨界”任务。
Magma的核心创新在于其独创的两大标注方法:
1、Set-of-Mark(SoM)
该方法为任务中需要关注的关键对象(如网页中的可点击元素或餐桌上的摆放物品)提供了一组高层次的“关注标记”。通过对这些目标进行精准定位,Magma能够更有效地捕捉任务的核心要素,从而为后续动作规划奠定基础。
微软研究院的研究还显示,SoM对UI导航、机器人和人类视频都有统一的操作标记作用,让模型能快速识别并锁定可交互目标。
2、Trace-of-Mark(ToM)
不仅是静态标记,ToM方法还扩展到动态视频场景中,通过对物体运动轨迹的标注,捕捉到动作的时序变化。
无论是机器人抓取物体时的手臂轨迹,还是人类在视频中的动态操作,ToM都能帮助模型理解任务的时序逻辑,预测未来状态,进而作出更加精准的决策。
研究团队表示,相比直接进行下一帧预测,ToM用更少的token就可捕捉更长时间跨度的动作语义,从而让Magma更能关注关键动作细节。
那么,Magma的实际表现如何呢?
概括而言,它在零样本智能与跨领域应用方面拥有强悍表现。
在多项测试中,包括UI导航、机器人操作与视频理解,Magma无需针对特定领域进行额外微调,就能交出令人满意的表现。
此外,研究团队还对多个模型(包括ChatGPT在内)做了零样本评估,结果显示预训练好的Magma是唯一能完成所有测试任务的模型。
而Magma的跨领域优势表现在以下几个方面:
与此同时,其多模态理解能力体现在:
在视频理解和对话场景中,Magma所需的视频指令调优数据量并不大,却在大多数基准测试上与Video-Llama2、ShareGPT4Video等先进方法相当甚至超越。
它不仅能描述视频内容,还能对下一步动作进行合理的预测和推断。
据介绍,Magma使用大规模异构视觉语言(VL)数据集预训练,包含3900多万条样本,覆盖图像、视频以及机器人动作轨迹等多种形式,并采用ConvNeXt-XXL作为视觉骨干网络和Llama-3-8B作为语言模型。
目前团队已经将Magma以MIT许可证在GitHub上开源,同时也在Hugging Face上提供了部分模型权重和示例,方便开发者快速上手。
从论文作者名单可以看到,其中大部分为华人。
论文一作兼项目负责人杨健伟,是Microsoft Research深度学习组的首席研究员,由Jianfeng Gao博士领导。
2020年3月加入微软前,他在乔治亚理工学院互动计算学院获得计算机科学博士学位,研究“结构化视觉理解、生成与推理”,师从Devi Parikh教授,并与Dhruv Batra教授合作。
他的研究专注于通用多模态智能体,是该领域的先驱之一,推动了多个重要突破,包括:
由他主导的Project Magma项目,于发布后登上Hacker News热榜第一,并在学术界和工业界引发广泛关注。
作者之一顾禹,是Microsoft Research资深科学家,专注于大规模基础模型、多模态学习和智能体技术,推动AI在医疗和企业级应用中的落地。
他主导开发了PubMedBERT,作为世界首批自适应大模型,下载量超过2000万,ACM年度最佳论文,广泛应用于全球医疗机构。他共同主导BiomedParse(发表于《自然·方法》),并研发BiomedJourney,用于模拟疾病进展,提升医学AI在数据稀缺场景下的适应能力。
在智能体系统方面,他展示了LLM驱动的multi agent协作推理,优化肿瘤决策,并在世界经济论坛上亮相,其研究成果发表在《自然》、《细胞》等期刊。
项目主页:
https://microsoft.github.io/Magma/
论文:
https://www.arxiv.org/pdf/2502.13130
开源地址:
https://github.com/microsoft/Magma
文章来自于微信公众号“新智元”,作者“微软研究院”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner