大家周末好呀!
MiniMax 本周也像之前OpenAI 和 DeepSeek开启了一次为期 5 天的发布周,发布了不少干货。
正好,趁着周末的时间,整理回顾了一波这一周他们究竟发布了哪些猛货。
省流版本直接看下图:
下面是详细版的回顾,我们就直接开始!
MinMax M1模型 是本周发的第一个干货。
它是 MiniMax的第一个深度思考模型,与它同类型的还有DeepSeek-R1 和 OpenAI 的 O 系列模型等。
它的第一个特点是,它的上下文长度达到了 1 百万的 Tokens,与它相当的,达到这个量级的,只有Google 家的 Gemini 系列。 但是,它与Gemni最大的不同的点是,它是开源的。
它的第二个特点是来自于它超级长的思维链,有两个版本,一个 40k,一个 80k。但从另一个角度讲,它因为想的多,也就会回答的慢。 如果你不知道 80k 的思维链长度到底有多离谱呢,就对比下,DeepSeek 就知道了。DeepSeek 的上下文长度官方支持的也不过才 64k,而这还远不到MiniMax的极限。
关于它的超长文本能力,我也做了比较详细的评测➡️:DeepSeek用户看过来:这个开源模型的上下文是它的15倍,还能思考80k字
第二个猛货,就是海螺 02,这个全新的视频生成模型,在 artificial analysis 这个榜单上,图生视频排到了第二名。
但实际上,它不仅图生视频很猛,文生视频也同样不差。
它最大的突破点是,人物终于能做高复杂的动作了,甚至包括是耍杂技、进行体操运动。
有关海螺这个新模型的人物做复杂运动的能力,我也进行了比较多的对比测试,对比了可灵 2.1 大师版、即梦 3.0、即梦 3.0 Pro、还有 Veo 3,发现确实是有水平的,很多高难度复杂的动作,都基本能做出来,而且都没啥大毛病的。
详细评测➡️: 中国AI悄悄干掉了谷歌,却没人敢说|MiniMax 新模型实测
说完了深度思考模型和视频生成模型,总算是到了 MinMax 这周新发的 Agent 产品, MiniMax Agent。强烈推荐大家都去试一下这个产品,不仅支持 MCP 服务,而且也支持多模态的输入输出,效果真的很牛逼。
唯一的问题是比较消耗积分(其实,Agent 产品都会有这类问题,因为他们执行步骤多,等待时间长),目前定价如下:
使用链接➡️:https://agent.minimax.io/
详细评测➡️:我用MiniMax做了个无牙仔科普网站刷爆了朋友圈|MiniMax Agent 分享
今年算是 Agent 发展的第一年,我们已经看到了太多 Agent 的产品,无论是通用领域,还是垂直领域,各类 Agent 真的层出不穷,真的很期待之后 Agent 能发展成什么样子。
如果说,MiniMax Agent 是一个通用领域的 Agent,那Video Agent就是专精于视频领域的垂类 Agent。目前,这个 Agent 还处在第一阶段,用户只需要上传图片,选择想要的模版,就可以生成一段有意思的视频,无需亲自动手,剪辑,拼接。
下面是我使用 Video Agent 生成的一个视频:
这个 Video Agent 之后也会开放更多的功能。
使用地址➡️:https://hailuoai.com/
大家多去试试呀,非常好玩的一个功能!
如果说 Claude 的优势是代码,Gemini 的优势是多模态,那 MiniMax 的优势就是声音。
前面发了推理模型,涉足了视频生成以及 Agent,怎么能少得了声音突破呢。
现在,你只需要通过 prompt 描述,就可以获得一段高度定制化,饱含情绪的声音。之前 ElevenLabs 也推出了相似的功能。
使用地址➡️:https://www.minimax.io/audio/voice-design
下面是我的测试的几个例子:
感觉第三个例子还是稍微差了点意思,情绪转换演绎的不够到位。前两个确实不错。期待 MiniMax 能够继续突破,打磨提升好这个功能!
Andrej Karpathy 2023 年的时候已经预测过接下来最火热的编程语言是英语。
更准确地说,其实就是自然语言。
这一观点在短短两年后的今天,已经不断地被验证。
使用自然语言开发一款软件似乎已经不是什么新鲜的事情。
而 MiniMax 通过这一周的发布会,向我们证明了,人们不仅可以用自然语言开发软件、还可以创造视频短片(甚至无需剪辑)、制作PPT、写长篇的报告,甚至还可以生成美妙的声音。自然语言已经融入了我们日常几乎所有的工作流中。
尽管有的功能可能还没那么完美,但是不完美才是迎接未来到来的常态,不是吗?
期待 MiniMax 在通往 AGI 的道路上带我们领略美丽的风景,
因为这个世界上最美的风景正是我们见过。
文章来自于“BubbleBrain”,作者“BubbleBrain”。
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0