Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

8453点击 2026-07-03 09:48

最近这段时间，国内外模型更新得很快。

如果只看发布会和榜单，大家都会觉得每个模型都很强。参数更大、上下文更长、推理更强、价格更低，听起来都挺猛。

但真正用到工作流里，会发现另一件事：模型强不强，不只看它会不会回答问题，还要看它能不能把一个任务完整跑完。

尤其是 Agent 场景。

一个复合任务需要大模型去调用多个工具，比如让模型做一份 PPT，它并不是简单写几页文字。中间要先理解需求，再去搜索资料，阅读网页，提取关键信息，整理成汇报结构，必要时还要生成代码或调用插件，最后产出一个可以正常使用的PPT文件。

下面测试两个Agent任务，使用同样的提示词，相同的Agent工具-Trae Work。

PPT制作

提示词：

调研当前主流短视频平台的差异化优势和发展路径，并整理成一份汇报的演示稿件。调研范围包括平台基本情况、用户规模、内容生态、推荐机制、商业化模式以及代表性案例。重点对比不同平台在用户群体、内容类型和增长策略方面的差异，并总结其成功经验与未来趋势，为产品或市场策略提供参考。

Step 3.7 Flash

Step 3.7 Flash 收到指令后会根据提示词的需求，进行分析，然后检索对应网站信息，归纳信息最后调用PPT插件工具制作幻灯片文件。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

风格偏向简约风格。耗时在5分钟左右，消耗差不多1块。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

这个也可以明显地查看到，此次任务使用了什么技能和搜索了什么网站。

整体看下来，Step 3.7 Flash 更像是偏生产级的选择。

它的优势不一定是单页 PPT 最漂亮，而是在速度、工具调用和任务完成率之间比较平衡。高频、多轮、需要稳定交付的 Agent 任务，会比较适合它。

DeepSeek v4-Pro

DeepSeek v4-Pro也是同样的路径，识别任务然后找到需要调用的工具，PPT生成工具。

只不过配色方面要鲜艳一点。最后一步也成功调用了PPT工具。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

耗时差不多5分钟，token消耗在0.5左右。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

简单说，DeepSeek V4 的优势是内容组织和展示效果比较好，适合对成品表达有要求的场景。但如果是持续高频跑 Agent 流水线，还要继续看端到端速度和单次成本。

Minimax

调用Minimax执行这个Agent任务有些不同，同样的提示词，Minimax最后一步调用的HTML工具制作的演示文稿。正常来说应该要去调用PPT工具。既然调用了HTML生成工具，看看生成效果怎么样。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

HTML整体画面风格还是可以的，因为是HTML所有代码要好生成一些，如果是制作PPT，可能就没有这么好把控。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

风格偏向清新风格，数据这方面比较齐全的。耗时差不多在7分钟左右，金额消耗0.7。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

所以 MiniMax M3 在这次测试里表现出不错的信息整理能力和视觉表达能力，但工具选择的可控性还需要关注。

它适合内容页、网页报告、轻量演示类任务；如果是严格办公格式，比如 PPT、Word、Excel，最好在 Prompt 里把输出格式写得更死一点。

Gemini3.5

Gemini系列的模型，审美一直在线，但是有一个实际问题就是-不稳定。

而且运行效率比较慢，国内模型的话这个PPT任务在3分钟内可以搞定，但是使用Gemini3.5现在粗略估计已经运行了10分钟了，还异常打断了一次。

如果在官方的工具中进行调用的话，那么会稳定一些。关键是谷歌的官方工具Google Antigravity也用不了呀。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

下面是生成的PPT结果。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

如果任务异常打断的话，会影响到任务链路会变得不连贯，最后导致成品一致性会变差。

这个是最后制作出来的，耗时差不多12分钟。因为中间有断联情况。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

所以 Gemini 3.5 的优势更偏视觉审美和内容表达，适合对页面质感要求高的任务。短板是端到端效率和链路稳定性。

对于高频、低延迟、生产级 Agent 场景，这个问题会被放大。

GPT 5.4

GPT的模型在国外主流模型中，可能没有很突出的方面，但是比较全能。毕竟GPT是模型界的老大哥。

这里我使用的工具是MonkeyCode，因为这个平台可以免费使用GPT5.4.

同样的提示词这个是制作效果：

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

这个和MiniMax一样直接做成了一个HTML。很明显不是我们想要的PPT文件。

可能是工具没有选对。切回统一的Agent工具Trae Work。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

效果一般，不是很突出。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

使用费用在1.4美元左右，那差不多就是9.5块人民币，耗时差不多10分钟。

这样一比较起来，感觉除了写代码，日常的一些AI使用和Agent调用完全可以考虑国内模型。

模型耗时与费用对比

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

信息抓取

Step-3.7-flash

为什么要测试信息抓取呢？因为这个任务是需要大模型去调用浏览器工具，测试大模型调用单工具，单复杂任务的能力。

浏览器信息抓取，需要模型去识别对应的界面标签，比如点赞在什么地方，评论在什么地方，找到对应的标签后，再进行往下面执行。

提示词

到小红书搜索关于即梦的最热门的笔记，选五个整理一下笔记的内容、点赞数和前三条评论整理为一个HTML，放在桌面就行，名字叫“笔记整理”。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

这个浏览器测试任务消耗就比较高了，因为每一步模型都要进行思考下一步应该要干什么，点击什么元素才可以获取到对应的数据。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

消耗了快200万的token，金额在0.9元左右。最后制作的效果。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

正确获取到了小红书上面的数据。

MiniMax-M3

同样的提示词采用MiniMax-M3进行一次测试，很明显数据和前面的有些不同。

不同的原因是因为筛选不一样，MiniMax-M3选用最多点赞进行筛选，Stpe-3.7-flash采用最多评论进行筛选。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

消耗金额在一块钱左右。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

MiniMax-M3有一个小问题是没有打开浏览器进行操作，在Agent内部使用网络搜索得出的结论。但生成的结果已经可以了。

deepseek-V4-Pro

deepseek-V4-Pro正常调用浏览器去获取数据。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

制作的HTML效果。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

deepseek-V4-Pro使用了360万左右的token，价格在0.5左右。

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

测试到这里就结束了。

模型耗时与费用对比

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT 的 Agent 评测，谁更适合Agent？

最后

前面的测试，主要跑的是一个Agent任务的链路问题——从搜索→阅读→总结→代码生成→再到工具调用，最终输出PPT结果和数据展示。

我们重点看的是这套流程是否跑得流畅，以及端到端耗时和单任务成本的高低。

如果只看单次成品，差距可能没那么夸张，但放到生产环境里，差异会被迅速放大。

因为Agent任务看的是端到端结果：能不能稳定跑完，跑完要多久，每次调用要多少钱，最后文件能不能直接用。

至少在“高频、明确、可验证”这类Agent任务里，Flash档模型的价值开始凸显。

它不追求所有榜单第一，但要在速度、成本和稳定性之间找到一个更实用的平衡点——而这恰恰是生产级场景最在意的三个维度。

文章来自于"陈随易"，作者 "陈随易"。

关键词: AI新闻 , 模型训练 , 模型对比 , 模型智能体对比

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0