刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了
6611点击    2026-03-19 10:49

谁能料到,OpenClaw 的热度从年初延续到了今天。除了专业工程师,很多普通人也在 FOMO(错失恐惧)情绪驱动下,开始了对「养龙虾」的追捧。


在昨天凌晨开幕的 GTC 2026 大会上,英伟达黄仁勋祭出了英伟达版 NemoClaw,并强调「现在每一家企业都需要制定自己的 OpenClaw 战略。」


国内大模型厂商显著加快了在「AI 养虾」赛道的布局,以 MiniMax 为例,2 月底便在他们的 Agent 平台上推出了 MaxClaw 模式,依托强大的 M2.5 大模型,10 秒内就能部署一个 24 小时待命的私人助理。


直到最近,MaxClaw 的产品价值仍在被更多人认可,「一个月前,我还在吐槽 MaxClaw,但现在它完全刷新了我的认知,当一系列 Agent 能力都在云端预装好之后,实际效果出奇地不错。」


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了


这也让人更加期待,MiniMax 全新一代大模型发布之后,又将在以「养虾」为代表的 Agent 场景中带来怎样的新玩法。


就在今天,刚刚亮相的 MiniMax M2.7,给了我们意料之中的惊喜。


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了


总的来说,此次 M2.7 的能力升级重点表现在五大方面,分别是 Agentic 指令遵循与复杂任务执行、多智能体协作与工程级 Coding、领先的 Agent Harness、角色扮演与长期记忆、以及办公自动化,从单点能力突破走向系统级 Agent 能力构建,其中:


Agentic 指令遵循能够保证模型在 50+Skills、60–150 个 Feature list 的复杂环境中保持稳定调用与流程执行。


多智能体协作与工程级 Coding 实现原生智能体协作,无需对外部编排的强依赖,在日志分析、Bug 定位、代码重构等真实工程场景中表现稳定。


Agent Harness 加强了编排工具的能力,支持 Agent Teams、多工具检索,配合预置的各种 Skills,可以构建自迭代的任务执行链路。


角色扮演能力全面强化,覆盖闲聊陪伴、互动小说、沉浸游戏、多角色群聊、长期记忆、Agent 自主行动、多模工具调用七大场景,支持中英日韩等 10 种语言,跨语言角色人格能够保持一致。尤其值得关注的一点是,通过适配 OpenClaw 长期记忆框架,智能体角色被赋予了持久身份与真实情感


办公自动化支持复杂 Excel/Word/ PPT 办公任务及多轮编辑,效率迎来质的飞升。


与此同时,得益于模型自身演化出来的自迭代能力,M2.7 的科研表现显著提升。它向以 Kaggle 竞赛为基础构建的 MLE Bench 评测体系发起了挑战,其中在 MLE Lite 的 22 道高难度竞赛题目中, 一举拿下了 9 枚金牌


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了

各道题目得分和奖牌细节


看起来,在当今的 AI Agent 时代,一个覆盖多场景、具备系统级能力的「全能选手」M2.7 成型了。


一手实测

赛博养虾有了更强的选择


话不多说,咱们直接开测,看看 M2.7 实战效果如何?


我们将 MiniMax-M2.7 接入到了官方版 OpenClaw 试了试其执行日常任务的能力。正巧我们的本地 OpenClaw 还没有检索 X 的能力,我们就让 M2.7 大展身手,自己解决这个问题。配置好模型后,我们直接给出指令:「安装 search-x skill,配置好密钥,然后检索 X,看看今天 AI 领域又有哪些新 agent 问世」。


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了


接下来我们又让配备了 M2.7 大脑的龙虾去 alphaXiv 上去看了下当前排名前列的论文:


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了


当然,配置了 M2.7 模型的龙虾也能帮你抢优惠券。比如下面我们向其提供了麦当劳 MCP 地址和密钥,然而我们收到的反馈是我们并没有安装 MCP,但没有关系,龙虾自会找到解决之法:


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了


登录麦当劳看看,确实已经到账:


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了


有了 M2.7 加持的龙虾也能成为我们的得力办公助手。举个例子,作为一家专业的 AI 媒体,我们的一大日常便是刷选题,也因此我们已经积累了大量选题 —— 其中许多优质选题也因为各种原因被遗忘了。借助 M2.7,我们可以将这些已经归档的选题重新利用起来,比如:


我的 obsidian vault 中有一个每日选题总结文件夹,里面是今天来我们总结的选题,都是 docx 格式。阅读这些文档中的内容,基于这些文档给我总结今年 AI 领域的发展趋势。


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了


可以看到,M2.7 得出了几个非常有见地的洞察,包括:模型军备竞赛持续但竞争维度变了以及 AI 智能体的大爆发,同时 AI 记忆和具身智能也是蓬勃发展正当时。其给出的最终总结也颇具参考价值:「2026 年 AI 正在从「聊天工具」进化为「能行动的智能体」,竞争焦点从模型参数转向推理效率、Agent 生态和安全对齐。物理世界(机器人、3D)成为新的主战场,而开源与闭源的博弈将决定行业格局。」


如此看来,在专业办公领域,M2.7 取得 GDPval-AA 榜单国产模型里的最高分,也不足为奇了。


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了


接下来,我们再来考验一下 M2.7 的编程能力。将 M2.7 配置到我们的 Claude Code 中,输入以下指令:


给我构建一个蒸汽朋克的龙虾信息网,但是里面的内容不是介绍 OpenClaw 这个网络龙虾,而是真正的龙虾。在网上找一些素材和介绍放入其中,让网站信息丰富。


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了

8 倍速视频


7 分多钟后,我们得到了第一版结果:龙虾档案室。在这里,我们可以简单了解有关真正龙虾的各种知识,包括它们的分类学、身体构造、生命历程以及与人类的关系等等。


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了


接下来,我们还可以对这个项目进行优化。为此,我们可以用到 MiniMax 精心设计并开源的技能。先来一句命令,让配置了 M2.7 的 Claude Code 自己将这些技能装上:将 MiniMax 在这里开源的技能配置成你的 Skill:https://github.com/MiniMax-AI/skills


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了


很快,技能就已经配置就绪。现在,我们的 M2.7 Claude Code 已经具备了更卓越的前端、全栈、安卓原生、iOS 应用、Shader 和 Gif 贴纸开发能力。下面我们就使用其中的前端技能让上面的龙虾档案室更加好看一些:使用 frontend-dev skill 优化以上龙虾档案室,让其更符合现代网页设计,更加炫酷。


最终,我们得到了以下结构和动画更加现代的龙虾档案室。


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了


最后,我们问了 MiniMax-M2.7 一个让 M2.5 始终无法正确回答的问题:「你认识马嘉祺吗?」(不懂这个梗的,请查看《挺搞笑,MiniMax 模型就是不认识「马嘉祺」》)


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了


看起来,MiniMax 已经解决了无法正确拼写马嘉祺的问题,之前我们评论区说通过「马嘉祺测试」辨认 MiniMax 后续隐身模型的想法想来也是无法实现了🤣。


从大脑到系统

M2.7 开始自我进化


多任务的实测结果让我们看到了此次 M2.7 的能力蜕变。


过去,大模型大多充当的还是「最强大脑」,如今 MiniMax 释出的是一个拥有「手脚、工具和记忆」的多面手系统。


可以说,当模型有能力自己构建工具链、优化执行路径并在反馈中持续重写自身策略时,它的定位就有了根本性的改变:它不再只是被优化的对象,而成为优化过程的一部分。


M2.7 实现自我进化能力跃迁的关键,在于其构建与运转复杂 Agent Harness 的能力。这一系统由多个 Agent 协作组成,并集成大量结构化的 Skills 模块、外部工具(如 Tool Search Tool)和多种 Agent 脚手架。


在 MiniMax 内部,Agent Harness 的价值已经得到了验证,仅用 1 人、4 天、零代码,M2 系列模型就以「架构师」身份自主搭建起完整的开发 Agent 系统,并在此基础上构建覆盖数据、训练、评测与记忆的研究型 Agent 体系。人类工程师只设定方向,模型完成构建,形成了「用 AI 迭代 AI」的自我进化闭环。


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了

M2 模型迭代系统


这样的 Agent 自迭代范式又推动了模型科研能力的进化。在给定 Agent Harness 的前提下,M2.7 可以胜任一部分研发流程。


以一个强化学习(RL)场景实验为例,Agent 能够协助启动实验,并在运行过程中持续监控状态,自动完成日志分析、问题排查、指标评估、代码修复、测试验证等关键步骤。在 Agent 加入之后,过去需要多个工程师协作完成的流程,现在只需要他们在关键决策节点介入即可。目前,在这一场景中,M2.7 已能够承担约 30%–50% 的实际工作量


不仅如此,通过主动迭代 Agent Harness 本身,M2.7 还可以对任务执行系统进行持续优化。


以一项软件工程任务为例,MiniMax 让 M2.7 在一个内部的 scaffold(执行框架)上来优化模型的开发表现。整个过程无需任何人工干预,它自主运行了超过 100 轮迭代,每一轮都遵循固定的优化闭环,依次是分析失败轨迹→规划改动 →修改 scaffold 代码→运行评测 →对比结果 →决定保留或回退。在这一过程中,M2.7 逐步发现了对模型有效的改进策略,最终在评测集上实现了约 30% 的性能提升。


如果说「构建工具」和「优化执行」完成了 M2.7 自我进化的第一步,那么模型还要有能力在执行过程中不断优化自身效果。


在上文 M2.7 取得 9 金成绩的 MLE Lite 评测中,MiniMax 其实进行了三次测试,每次间隔 24 小时进行迭代,验证了模型性能随迭代次数增加而持续攀升这一结果。三次测试平均得牌率达到 66.6%,与 Gemini-3.1 持平,仅次于 GPT-5.4 (71.2%)、Opus-4.6 (75.7%)。


背后是怎样的运行逻辑呢?MiniMax 指向了一套围绕短时记忆、自反馈与自优化三大模块构建的简易脚手架。每一轮迭代后,Agent 会生成记忆文件并展开自我评估,将问题与改进方向沉淀下来。接着在下一轮迭代中,这些历史记忆与反馈被统一利用,推动进一步优化。


刚刚,MiniMax直接让龙虾学会自我进化,也认识「马嘉祺」了


未来,这样的能力还有望逐步推动 AI 研发全链条的自动化,从数据构建、模型训练到推理架构设计与评测体系搭建,一切都由模型自主完成,从而在一个 AI 主导的闭环中持续进化。


写在最后


截至 3 月 10 日,MiniMax 市值已经攀升至 3800 亿港元(约合人民币 3350 亿元),超过百度、京东、携程等互联网巨头。


M2.7 的发布,对于这家刚刚完成资本跃升的大模型独角兽而言,或许只是其「一周为单位更迭」的马拉松里的一个既定节点。


从此次更新的重点来看,无论是指令遵循、复杂任务处理、多智能体协作、代码能力,还是对 Excel、Word、PPT 等日常办公场景的支持,M2.7 始终在试图回答同一个问题:模型究竟能不能稳定融入真实的工作流,而不是仅仅在演示环节令人眼前一亮。


尤其是在「龙虾」这类 Agent 场景走热之后,用户的期待也已经变了,大家不再只满足于一句话的聪明回答,而是更在意它能否持续协作、理解角色、处理约束、完成复杂任务。


M2.7 的发布未必意味着尘埃落定,但至少说明,模型竞争的焦点正在从参数、榜单和概念,逐渐转向执行质量、任务完成度与真实体验。对 MiniMax 而言,这种演进也契合其一贯的风格:不急着讲宏大的故事,而是持续把能力落进产品、场景、成本结构。


正如闫俊杰所坚持的,大模型的真正价值不在于制造对立,而在于如何作为一种日常化的工具,去分担那些繁琐的「脏活累活」。M2.7 的意义,不在于终结人类的创造力,而在于为未来漫长的共存与协作,提供一个更扎实可靠的起点。


一切确实才刚刚开始。


文章来自于“机器之心”,作者 “机器之心编辑部”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md