通用Agent都快被骂废了,MiniMax突然搞了个能打的

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
通用Agent都快被骂废了,MiniMax突然搞了个能打的
5765点击    2025-06-19 10:29

螺旋镖还是回到通用 Agent 了,


100天里,我们一起见证了创作、设计、搜索、编程、旅游、办公、播客等垂直领域 Agent 们的诞生,


也迎来了通用 Agent 一次完整的能力升级 ——


MiniMax Agent


不需要邀请码,也不搞限额,这几天已经在海外火起来了,


几周前我就拿到了这款 Agent 的测试资格,现在可算是蹲到了MiniMax 开源周,可以好好说说,通用 Agent 2.0(我单方面起的名字) 具体升级了什么:


  • PPT:有多套模版,还可以包含Smartart元素和可视化图表
  • 编程:能模拟实际场景下的真实操作,减少网页类代码的Bug
  • 多模态理解:既可以输入音频、视频、图像,又能生成图像、视频和视频
  • Deep ReSearch(深度研究):内置API、基础搜索、Browser use等信息检索工具
  • 支持MCP:内置地图、github/gitlab、slack、figma等 MCP Servers,后续还可以自定义


那我就按照群里收集到的Agent使用场景和频率,给增强后的能力们安排上测试案例,从对话交互、思考过程、交付结果来直观展示这次通用 Agent 的升级变化,Here we go!


🔗 agent.minimax.io(⬅️使用去这里)


01|多模态网页


我现在已经习惯把搜索或者对话记录打包好做成可视化网页了,


这用来自己重温或者是分享给别人都是方便到离谱,之前的缺点就是文字对应的图片找不到,或者是找不准。如果是喜欢自驾的朋友,这段时间新疆独库公路开放了,直接用MiniMax Agent给大家做一个带音频解说的旅游网站。


通用Agent都快被骂废了,MiniMax突然搞了个能打的


提示语长度预告~


我要制作一个以“新疆独库公路 · 四季穿越”为主题的沉浸式滚动网页,每一屏聚焦一个沿线景点,比如独山子大峡谷、那拉提草原、巴音布鲁克、库车大峡谷等等。页面采用全屏滚动翻页的形式,让浏览者随着页面的推进,像是亲自沿着这条561公里的传奇公路穿行一样。


每一屏都包含:


  • 一张全屏的景点照片(Hero image)
  • 一段由 MiniMax 生成的中文音频讲解(配合静音播放控制)
  • 一个 Google Maps 地图,定位该景点的位置与路线
  • 一张基于 Apache ECharts 绘制的简洁数据图表,例如海拔变化、开放月份、日照强度等


## 色彩风格(参考新疆自然地貌)


为了更贴合新疆的自然气质,我希望页面整体颜色风格参考“高原自然色”


##排版与视觉比例


  • 中文大标题使用黑体粗字,英文作为注释点缀,字号小一阶
  • 核心数字(如公里数、海拔等)使用超大字号,形成视觉锚点
  • 整体遵循 8pt 栅格排版,保持对齐、留白有节奏感
  • 滚动结构使用 scroll-snap,用户每次滚动都跳到一整屏,不混乱


## 数据可视化


每个景点配一张简洁的折线图,基于 Apache ECharts 5(CDN 引入)渲染,不要复杂交互,仅做信息补充


## 地图与语音


  • 地图用 Google Maps iframe 嵌入,每一屏都要准确标注当前景点位置,并允许拖动浏览
  • MiniMax TTS 生成的音频讲解,页面打开时延迟加载,首次播放需要用户交互触发(保证自动播放策略合规)
  • 所有地图与音频组件都使用懒加载方式,减少页面初始加载压力


## 技术架构要求


  • 使用 HTML5 + Tailwind CSS 3(JIT 模式)+ 原生 JavaScript 开发
  • 动画库统一用 anime.js,通过 CDN 引入
  • 页面内不超过 6 个并行请求(含图表、地图、音频),保持加载体验流畅
  • 页面可直接部署在静态页面平台(如 Vercel、GitHub Pages)


## 输出格式


  • 单页响应式页面,支持大屏(1920px)浏览体验
  • 向下滚动时自动加载下一屏
  • 页面内容以模块形式组织,每一屏保持信息一致性:景点图、地图、音频、图表
  • 页面整体视觉统一、干净、现代、具有新疆地域识别度与沉浸感


MiniMax Agent 只需要半小时就完成了,


直接把生成的结果和我给的提示语对照一下,可以看到我给出的要求基本都做出来了,每一屏需要的景色背景图、数据表、地图、语音播放全都完成,


而且图片质量很高,有点子国家地理那味儿了,网页设计审美也很绝,这个极简风又高级又好看,我直接幻视苹果组件。


通用Agent都快被骂废了,MiniMax突然搞了个能打的


在执行过程里,Minimax Agent会结合自己的代码优势,创建数据收集脚本、可视化数据分析脚本、


还会主动创建一个源文件跟踪记录,记录所有使用的资源和验证过程,


因为有多模态能力,在验证的过程中,它还可以自己体验看一遍确保质量。而且上面展示效果里所有的图片和音频都是直接生成。现在很多通用 Agent 会用图片搜索来匹配合适的图片,结果不是因为分辨率低,就是因为图片尺寸不一,有些时候图片本身跟文字内容就配不上。


而且我还发现一个有趣的设定,MiniMax Agent 能自己选择合适的中文音色,


换句话说任务执行前我是不是还可以主动指定音色偏好。


通用Agent都快被骂废了,MiniMax突然搞了个能打的


更6的来了,


它在构建好网页后还可以主动模拟浏览器操作,


确保输出的网页不会有打不开这类低级错误。


通用Agent都快被骂废了,MiniMax突然搞了个能打的


还有还有,


minimax agent支持批量打包下载中间生成的所有文件,


这一点是很多Agent都没有的。


通用Agent都快被骂废了,MiniMax突然搞了个能打的


🔗 对话记录 agent.minimax.io/share/281052363272344


作为第一个case,我们再上点强度,


跟隔壁 Manus 对比一下效果吧,


通用Agent都快被骂废了,MiniMax突然搞了个能打的


如果没看minimax之前,我确实还觉得很不错。


但现在可以看到背景图确实很糊很糊,一下子拉低了整个页面的质量,


而且 manus 没有内置音频能力,对话过程中也无法调用对应api或者代码实现,这个音频组件就是小摆设实际上是不能直接使用的,体验-1。


02|主题PPT


再来做个PPT吧,


既然买不到 Labubu,那我做几个 Labubu 养养眼总可以了吧。


通用Agent都快被骂废了,MiniMax突然搞了个能打的


幸好四月份还囤了一个,


这可能是我上半年唯一一只了。


通用Agent都快被骂废了,MiniMax突然搞了个能打的


提示语长度预告~


制作一个 “LABUBU 现象” 网页,类似可滑动的 PPT 展示,从角色起源、彩色变体、市场热度、文化影响到未来趋势进行全方位剖析。


每屏内容包括:


  • Hero 图(Labubu 角色)
  • 简洁数据图(ECharts 折线/条形)
  • 深色按钮 & 关键句强调
  • 字幕式英文小注


## 动效设计

  • 引入 anime.js(CDN),实现模块级 scroll-triggered 动画,如 Zoom-In、Parallax 移动、淡入淡出
  • 动画节奏由缓动函数 cubic-bezier(.33,.01,.68,1) 控制,提供轻松 yet 有张力的切换体验
  • 增设 “减少动画” 模式,符合可访问性需求


## 数据可视化


  • 使用 Apache ECharts 5(CDN)生成折线图/条形图,展示如:色彩变体数、年度发售数量、盲盒获得率
  • 图表线条通过特殊点缀色(薄荷青)呈现,透明渐变只在此色区域展开
  • 线条样式简洁,无填充背景色,提升信息识别度;图层支持 mix-blend-mode: multiply 与背景融合


## 技术栈 & 资源


  • HTML5 + Tailwind CSS 3(JIT + Purge 模式,下发 < 25 KB CSS)
  • 引入 Google Fonts(中:思源黑体,英:Outfit 或 Nunito)
  • 动画库:anime.js(JsDelivr CDN)
  • 图表库:Apache ECharts 5(CDN)
  • 图标:Font Awesome 6 / Material Symbols(SVG/CDN)
  • 图片 & SVG 使用 SVGO 优化,CLS < 0.1;页面请求 ≤6 并行,保障首屏渲染性能


## 输出格式


  • 单页响应式布局,模块展现为可翻页“PPT”
  • 每块 Hero 图 + 小英文注解 + 中文重点讲解 + 符号图表
  • 色彩、动效、排版风格经过新 Labubu 主题定制
  • 视觉调性统一:干净明快、资讯清晰、调性年轻趣味


这个封面是营销汇报环节中最重要的一页,


做过运营的都知道,高亮最优数据是必须的一环,


这一页minimax做的非常漂亮,数据正确、配图配色好看、排版都很精致,可以直接照搬。


通用Agent都快被骂废了,MiniMax突然搞了个能打的


再看中间页的数据分析,


从市场占比、泡泡玛特的IP 营收对比、二手市场价格上做出了相应的数据总结,


甚至引入了前几天拍卖掉的108万天价初代labubu(许个愿,我也想要)。


通用Agent都快被骂废了,MiniMax突然搞了个能打的


而且它还能总结了目前某音、某书、某博的讨论数据,


并且列出真实产生的明星效应事件,非常清晰一目了然。


通用Agent都快被骂废了,MiniMax突然搞了个能打的


最后介绍了labubu的创始人、设计理念以及labubu和泡泡玛特和简要合作历史,总结了未来的发展趋势,整个网页不管是从一个报告看还是从设计上看质量都蛮高的。


通用Agent都快被骂废了,MiniMax突然搞了个能打的


03|深度研究


编程考了,多模态考了,MCP、PPT也跑了,是时候试试看硬实力的 Deep Search 了。


刚好 MiniMax 的视频模型 Hailuo 02(0616(其实是618)都起来打榜了,


通用Agent都快被骂废了,MiniMax突然搞了个能打的


单看视频效果也是很离谱的程度,


通用Agent都快被骂废了,MiniMax突然搞了个能打的


这打击感太强了,


所以我这把直接让 MiniMax Agent 自己来做一个AI视频发展全景总结:


通用Agent都快被骂废了,MiniMax突然搞了个能打的


提示语短度不预告~


MiniMax 的视频模型 Hailuo 02(0616(其实是618)马上就要上线了,我真的非常兴奋。现在,我想知道关于AI视频的所有的一切,包括时长、清晰度、技术架构、功能点首尾帧、超清、延长、主体一致性等,从24年6月份到25年6月份。我希望得到一个极度详细的万字报告。这个报告不要太单调,要写的像故事那样。同时做一个时间线,放上所有ai视频产品,包括Hailuo的迭代时间点。把最后搜索得到的结果,按照合适的格式整理成美观的网页。


这一次跟前两次不同,我没有具体指定一些风格、技术栈、配色方案等等,


而是直接让 MiniMax Agent 自己选择合适的格式整理成网页。


这更接近我平时使用深度研究或者深度搜索的场景,需求比较模糊,更期待模型自身给我的反馈。


效果也比我预计中要好很多,是一个比较标准的产品展示页,或者博客类型的页面,顶端栏划分了不同的信息,顶端和底部都保留了大量跟Hailuo 02的相关项,每一个页面都能交互,包含的信息量非常大,几乎完美的匹配了我的需求,你看到提示语中我说到的东西几乎都实现了。


我最最喜欢的是顶部这个类似通知滚动条的设计,就很有一种人感,有一种小巧思的感觉。


很多高频运营的网页都会使用的做法,nice。


通用Agent都快被骂废了,MiniMax突然搞了个能打的


最后来看看MiniMax Agent的积分定价吧,


新用户会自带1000个积分,


基础版对标的应该是manus的plus版,同样的价格能执行2倍左右的任务数。


通用Agent都快被骂废了,MiniMax突然搞了个能打的


那我自己跑的这三个案例举例,


不带音频生成的话,任务积分消耗在300-500不等,能完成15个任务的水分不大。


One More Thing


今天是Minimax开源周的第三天,


Day1开源了 MiniMax M1


跟之前开源的基座模型MiniMax-01一样,456B参数,MoE架构,激活参数45.9B。支持1M输入,80k输出的超长上下文,是DeepSeek-R1的8倍。


通用Agent都快被骂废了,MiniMax突然搞了个能打的


Day2发布了Hailuo 02


支持 10 秒,1080P 视频。


一起来看看前后升级的效果对比吧


通用Agent都快被骂废了,MiniMax突然搞了个能打的


好期待后面三天还会有什么大货,


会是一个月前才发的声音模型Speech-02有小版本更新?


还是说图片模型也跟着视频模型一起升级?


我已经等不及了,


要不连夜开发布会吧!


文章来自于“卡尔的AI沃茨”,作者“卡尔 & 阿汤”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。

项目地址:GitHub:https://github.com/camel-ai/owl

2
OpenManus

【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。

项目地址:https://github.com/mannaandpoem/OpenManus


3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

5
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

6
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales