深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

10310点击 2025-07-23 10:45

OpenAI GPT Agent以为只比Manus们差了一步，

但7月份带着一堆更新回归的MiniMax Agent告诉它其实已经慢一圈了。

还在卷PPT、可视化网页制作、报告制作的时候，MiniMax已经可以完成：

全栈开发和部署（做出来的网页支持登陆、注册、前后台、以及Stripe支付）

我真的可以搬出那句人人都可以是独立开发者了，这一整套流程都安排好，真的不夸张，这样一套无代码的开发系统，去年是1500左右/月，我都用下不去手。

多模态的输入输出（图片、音频、视频）
定制自己需要的MCP Servers
还支持定时任务（每天更新AI日报都不是压力测试了）

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

我从快80个真实案例里面分为6大类，一起来看看这个豪华的目录吧：

全栈开发：开发互动论坛 & Strip支付课程购买网站
自动化工作流：AI日报 & OpenAI日报（举例）
MCP自建：酒店比价MCP
多模态内容：图片位置识别 & 30s视频短片生成
交互式学习：初一数学游戏化学习
PPT制作：有一个好看的案例太想分享了

Here we go!

我跟MiniMax Agent的聊天记录和提示语都打包整理好了，还是老规矩，公众号回复“mmagent”就行，两个m哦

01｜全栈开发

MiniMax Agent 应该是第一个敢把“全栈开发”这四个字说出来且确实能做出来的 Agent。

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

试着用它开发了一个在线论坛，整个需求是 Agent 自己分析出来的：首页要有帖子列表、每个帖子有详情页、支持注册登录、有评论功能，甚至还自动检测登录态安全、接口健壮性这些细节，真像个经验丰富的前端+后端全职程序员做的。

从发到我邮箱里的邮件信息可以看出是接入了Supbase（简单理解成云端数据库），整体逻辑都非常顺，注册、验证、登陆、发帖都没有卡顿，页面之间的路由跳转丝滑得不像AI搭的。

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

🔗 06f75ewdtw.space.minimax.io

最简单也最困难的登陆功能能做的话，

距离完成一个基础的Saas网页就差个收款功能了。

这一点可能不同的人想法不一致，但是就拿我自己做的网页来说，除了基础UI外，我首先要的是基础的信息整理，比方说ai工具的开源替代（存个20页左右），再加一个登陆功能，吸引用户收藏、评论等等。

真的就差个收款功能了，可能是让用户可以自定义分类，或者提交自己的工具等等。

在MiniMax里加一个新需求：

开发一个带Stripe支付功能的在线课程购买网站

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

🔗 kcvaoey6ln.space.minimax.io

它就能自己构建商品展示页、添加购物车、生成订单、调用 Stripe SDK 并处理支付成功/失败的回调逻辑，全流程自己跑了一遍测试，交付前还会主动跟你确认体验是否流畅。

总的来说，我能清晰感受到 MiniMax Agent 是有工程意识的，它不是凑页面交差，没有多余的功能，而是真心想交一个“可用”的项目。

02｜自动化工作流

现阶段的搜索组件有太多选择了，有AI搜索、联网搜索的MCP、有平台会自带Deep Research或者Deep Search，

所以我前段时间也放弃了继续做每日AI日报，比起每一条信息的压缩和挑选，更难的是要每天更新。

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

MiniMax Agent算是圆了我一个小遗憾

对信息自动收集来说，我还是建议大家将一个个主体做成独立的信息源，

不然光是要生成全网前十的AI新闻的话，得到的信息只能是非常零碎的，实在不行分平台来收集信息效果都会好点。

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

制作一个网页，通过后端调用serper API每分钟更新并搜索获取OpenAI新闻。希望整体UI风格接近OpenAI官方网站油画质感。无需手动刷新按钮。

🔗 cth57sk0va.space.minimax.io

那再提升一下，让MiniMax自己用serper API做信息检索、用Gemini API完成内容合成和排版，用Subpase存储最近5天的日报、还要每天八点自动启动工作流：

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

🔗 q9s4jxcvv6.space.minimax.io

照样可以做，我现在真有点想把AI日报升级一下重新开放出来了，

之前囤的几百个信息源我现在只把一部分做成了Rss，光自己看的话每天都看不过来。

03｜MCP自建

这里的开头我挺想引用一下我看到的 @idoubi 和 @深绘 关于MCP的一段对话。我感觉会消除不少人的疑惑，我浓缩摘要了一下：

提问：

说实话，我还是Get不到MCP的点。

这件事的本质，其实就是AI发起一个工具调用请求，服务方给出工具执行结果，AI添加到上下文，然后回答用户或者继续调用。

如果说这是为了统一标准，OpenAPI不是已经是标准了吗？全世界的API都在用OpenAPI文档，AI也能直接读懂，工具调用完了结果该怎么加到上下文还是怎么加，为啥还要搞个MCP？

回复：

a.不是所有 api 都有文档，没有文档 AI 不知道调用什么 API。mcp 在定义工具的时候，相当于是在写文档

b.不是所有写代码的都喜欢对接 api，写一个 mcp client，就能一次性接入很多个 api 提供的功能

c.在 OpenAI 创建的 gpts，你不能在其他地方用。用 mcp 制作的服务器，你可以用在任何 chatbot

AI 时代的万物互联，需要 MCP 这样的协议

那现在MCP Servers的问题是数量还是太少了，想要把自己的服务打包成MCP，我在之前的教程里面也给出了相对简单的实现路线，也要一个固定模版、一套API文档、以及Claude来帮帮场。

在 MiniMax 里，一句话就能搞定：

编写一个能够比较Agoda和Booking酒店价格并包含酒店名称的MCP程序

enmm，提示语就是如此简单，从它的执行过程中看，首先是会找有没有类似的MCP，发现实在是没有之后，就到了程序员的快乐超市Github找了一个“看起来很有前途”的项目（这是它原话）。

但是这个库更新的时间已经是很久之前了，所以MiniMax是参考它的结构重新生成了完整的配置文件。

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

在生成的README里面是有安装说明书的，

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

添加图片注释，不超过 140 字（可选）

连上ChatWise之后，也是帮我找到了下个月巴厘岛的优惠酒店了

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

04｜多模态内容

接下来就是考考MiniMax的多模态能力，上面的case我都输入的文本，那图片、音频、甚至是视频呢？

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

分析照片拍摄的确切位置

这个case当时o3 pro出来的时候都在测，很多模型都是蒙的，经不起推敲。

所以MiniMax建立了一个计划文档，首先做图像分析，看到了樱花、大楼、特色的道路设计，然后换了几个不同的搜索源确认哪些地方是以夜樱灯饰出名的，最后搜索了一大堆卫星图像，确定了位置坐标，甚至还推测出了当时是在举办 Midtown Blossom 活动，分析到一半它还会再看一遍图像来刷新记忆。

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

输入好了，输出怎么样？我不是才更新了视频Agent的横评嘛，所以来吧：

写一个30秒的小故事，主角是一个穿着宇航服的女孩，在下雨天的便利店门口偶遇了未来的自己。要画面氛围感强，补充完整的剧情，有配音和背景音乐

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

配音很有复古感，而且分了角色，这个很难得，画面整体的逻辑都还不错，成功率也很高。画面的场景和人物一致性也很好，但我看着更像女孩怀念离开的妈妈，不太像遇见未来的自己，剧情这一块可以进一步优化。

05｜交互式学习

值得分享还是太多太多了，我们再来个互动感拉满的案例吧，

帮我做一个网站，展示和教学初一数学的所有知识点，数学公式要正常展示，如果有图形几何等知识点要用动画效果教学，索引知识点的方式可以做的像通关游戏一样

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

🔗 cghopcufj0.space.minimax.io

Amazing啊，能用来学习的Agent又多一个，MiniMax会先拆解教学目标，再根据教学节奏做出章节划分，然后每章配小游戏、小测试和答疑模块，甚至还需要先做对前面几关才能解锁后续。。

所以理论上积分足够的话，

我完全可以在MiniMax Agent里轻松完成搭建一套带前后台、收款、多模态输入输出、有丰富交互细节的网站，还能顺手做出一大堆MCP。

06｜PPT制作

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

帮我做一个新世纪福音战士介绍PPT

虽然PPT不是这次最主要的更新，但是作为Eva厨，从MiniMax出品的PPT页数、背景图片和文本的匹配程度、模块组件的磨砂感和色块、甚至还知道将MAGI这个超级电脑说的话用经典的黑绿命令行模版来说，都可以看出MiniMax这次的提升。

而且从生成过程中看，MiniMax并不是每一步都是成功的，特别是网页信息提取的步骤，但它会将失败的步骤集合起来重新运行，这一操作能降低卡住某个todo的几率。

写在最后

最后一个，真的是最后一个了

宝可梦太可爱了真的。

深度实测通用Agent 2.0，学会全栈开发后把GPT Agent按在地上打了

可能很多人第一次看到 MiniMax Agent，会觉得只是另一个「会写代码的AI」。

但亲自体验一遍之后，我意识到它不是做了一堆网页，而是做了一些“可以上线运营的产品”；不只是跑通了流程，而是成了一次真实世界里的需求闭环。

很多时候，我给的提示语并不完美，它也不是每一步都能一次成功，但你就是能看到，它会不断尝试、不断修复，直到那个「你想要的答案」真的出现。

MiniMax Agent 做到了。

而这，也正是我愿意把它留在常用Agent第一排的理由。

文章来自于“卡尔的AI沃茨”，作者“AI沃茨”。

关键词: MiniMax Agent , AI产品实测 , AI编程测评 , AI全栈测评

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址：GitHub：https://github.com/camel-ai/owl

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/