Kimi k2.5突然发布!「看」图更卷了,还有个大招能和DeepSeek争夺开源王者

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Kimi k2.5突然发布!「看」图更卷了,还有个大招能和DeepSeek争夺开源王者
7233点击    2026-01-27 17:16

就在刚刚,月之暗面正式发布并开源了 Kimi k2.5。


官方技术报告的第一句话就不装了:the most powerful open-source model to date——迄今为止最强大的开源模型。


与上一代模型不同,Kimi k2.5 并非简单的「升级版」,而是一个基于 1.5T 混合视觉与文本 Token 预训练的原生多模态模型。在这个基础底座之上,Kimi 团队构建了一套名为 Visual Agentic Intelligence(视觉智能体智能)的系统。


Kimi k2.5突然发布!「看」图更卷了,还有个大招能和DeepSeek争夺开源王者


这意味着,Kimi k2.5 原来已经极其强大的长文本,再次进化成了一个既有「眼睛」能看懂复杂屏幕,又有「双手」能指挥庞大智能体集群的超级工头。在 SWE-Bench Verified(编程)和 HLE(人类最后考试)等硬核基准测试中,它不仅超越了 DeepSeek V3,甚至在多项指标上击败了闭源的 GPT 和 Gemini。


Kimi k2.5突然发布!「看」图更卷了,还有个大招能和DeepSeek争夺开源王者


从「单兵作战」到「集群思维」


这次发布的更新当中,Agent 集群堪称是 Kimi k2.5 最亮眼的设计。


在过去的几年里,无论模型多强,面对超长、超复杂的任务(比如「帮我调研 100 家竞品的定价策略」),它们通常只能串行处理:查完第 1 家,再查第 2 家……一旦中间出错,整个任务链就容易断裂。


Kimi k2.5 引入了 Agent Swarm(智能体集群) 架构,其核心理念是 Scaling Out, Not Just Up ——不仅要做大,更要做多。在 Swarm 模式下,Kimi k2.5 会自动扮演指挥官的角色。当接到一个复杂任务时,它不会自己闷头干,而是瞬间动态创建并指挥多达 100 个智能体的「工头」。


Kimi k2.5突然发布!「看」图更卷了,还有个大招能和DeepSeek争夺开源王者


这些智能体可以是「AI 搜索员」、「AI 物理学家」、「AI 事实核查员」……它们在指挥官的调度下并行工作。技术文档显示,Kimi k2.5 支持高达 1500 次并行工具调用(Parallel Tool Calls)。


效果是立竿见影的。在官方演示的「寻找 100 个细分领域的 YouTube 头部博主」任务中,人类需要几天,传统单体 AI 需要数小时,而 Kimi Agent Swarm 仅需几分钟。


Kimi k2.5突然发布!「看」图更卷了,还有个大招能和DeepSeek争夺开源王者


数据显示,相比传统模式,Swarm 架构将端到端任务的执行时间减少了 80%,整体效率提升了 4.5 倍。


Kimi k2.5突然发布!「看」图更卷了,还有个大招能和DeepSeek争夺开源王者


为了驾驭这种疯狂的并发能力,Kimi 团队采用了一种名为 PARL (Parallel-Agent Reinforcement Learning) 的训练方法。这让模型学会了在没有预定义工作流(Workflow)的情况下,自主拆解任务、分发任务、并处理并行反馈。即便某个子智能体失败了(Serial Collapse),指挥官也能迅速感知并重新调度。


VLM 过时了,Kimi 带来「视觉工程师」


如果说 Swarm 是 Kimi 的「大脑」,那么 Visual Coding(视觉编程) 就是它进化的「眼睛」。


K2.5 模型支持从简单的自然语言对话生成完整的前端界面,并能有效处理交互式布局及滚动触发等动态效果。在 Kimi k2.5 之前,市面上的 VLM(视觉语言模型)大多停留在「看图说话」的阶段——你给它一张网页截图,它告诉你「这里有个红色按钮」。但如果你让它写代码复刻这个网页,它往往只能写出一个死板的 HTML 骨架,根本不懂交互逻辑。


Kimi k2.5 在这里实现了对传统 VLM 的降维打击。在下面的例子中,展示的是从视频复刻网站(Reconstructing a website from video)的操作,左边为原视频,右边为 Kimi 复刻的网站。


Kimi k2.5突然发布!「看」图更卷了,还有个大招能和DeepSeek争夺开源王者


你只需要录制一段网页操作的视频投喂给 Kimi k2.5,它不仅能看懂静态的 UI 布局,还能理解动态的交互逻辑——比如滚动触发特效、复杂的卡片翻转动画等。然后,它会直接生成包含完整 CSS 和 JS 逻辑的可用代码。


更惊人的是它做视觉调试(Visual Debugging)能力。写完代码后,Kimi k2.5 会「看」一眼渲染出来的页面。如果发现「按钮歪了」或者「颜色和原视频不一致」,它会像人类工程师一样,基于视觉反馈去修改代码,而不是盲目地重新生成。


Kimi k2.5突然发布!「看」图更卷了,还有个大招能和DeepSeek争夺开源王者


这种「观察-编码-验证-修正」的闭环能力,让 Kimi k2.5 成为了目前开源界当之无愧的新王,代码和视觉两手抓。


在权威的 SWE-Bench Verified 测试中,Kimi k2.5 拿下了 76.8 的高分,这一成绩不仅碾压了 GPT 5.2,也超过了同为开源顶流的 DeepSeek V3.2。


当所有人都试图把单一模型做得越来越大时,Kimi 展示了另一种可能:通过极致的视觉感知理解世界,通过庞大的智能体集群改造世界。


目前,Kimi k2.5 已在 Hugging Face 开源,同时 Agent Swarm 模式也已在 Kimi.com 上线。无论是用户还是开发者而言,这可能是 2026 年最值得上手一试的开源模型。


文章来自于“APPSO”,作者 “APPSO”。

关键词: AI新闻 , Kimi k2.5 , Kimi , 月之暗面
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md