13小时不眠不休，300个分身狂敲代码！开源第一易主了

6980点击 2026-04-23 10:04

开源AI王座一夜易主！Kimi K2.6出道即巅峰，展示了恐怖的「全栈交付」能力。它不仅能复刻高盛研报、手搓奢华官网，甚至能和人类在群组里并肩打工。

开源模型追平甚至反超闭源三巨头，这件事真的发生了。

4月20日深夜，Kimi K2.6出道即开源。

HLE「人类最后的考试」54.0分，碾压GPT-5.4和Claude Opus 4.6
SWE-Bench Pro软件工程实战58.6分，超过GPT-5.4的57.7
Terminal-Bench终端编码66.5分，而GPT-5.4只有60.4
Artificial Analysis评测中，更是直接坐上了世界开源第一王座

13小时不眠不休，300个分身狂敲代码！开源第一易主了

但我们今天抛开跑分，只聊一件事：K2.6到底能干出什么活。

代码写完了，设计也交了

首先，让K2.6 Agent制作一个近地轨道旅行公司ORBITAL的官网，要求植入太空舱座位选择和航班预订功能。

13小时不眠不休，300个分身狂敲代码！开源第一易主了

打开的瞬间，商业航天的高级感直接拉满。

全屏视频背景是太空舱窗口视角，地球弧面缓缓转过，大气层边缘泛着蓝光。

右下的飞行数据面板用等宽字体列出关键参数，左上的荧光青小圆点在缓慢呼吸闪烁，模拟系统在线状态。

往下滑动，是一条垂直时间线驱动的飞行叙事。

从T-60:00在樟宜航天港换上定制加压服，到T+03:00推进阶段承受过载，到T+08:00零重力开始，一直到T+92:00 Touchdown，太空舱溅落海面，回收潜水员围上来。每个阶段带一个橙色关键数据和AI生成的场景配图。

一段prompt，一次生成，从品牌视觉系统到可交互的舱位SVG图，全部到位。

13小时不眠不休，300个分身狂敲代码！开源第一易主了

K2.6 Agent做出来的不只是好看的前端，它能做全栈交付。

后台的航班预订系统是真的能跑的。选日期、挑座位、填乘客信息，预约数据做了持久化存储，每航班6座上限，满了自动锁定。

这个网站不是一个「看样子」的空壳，它带着完整的后端逻辑。

13小时不眠不休，300个分身狂敲代码！开源第一易主了

换个题材。

同样的prompt结构，K2.6 Agent产出了深海探索研究机构「THALASSA」的官网。

首屏运镜从北大西洋海面垂直下沉入水，穿过水线的瞬间画面一分为二，蓝色从浅到深渐变，远处墨蓝中亮着两点暖黄色潜水器灯光。

三台潜水器参数卡片精确到推进方式和观察窗尺寸，6种深海生物各占一屏。田野笔记区三篇文章分别署名首席科学家、海洋生物学家和纪录片导演。

13小时不眠不休，300个分身狂敲代码！开源第一易主了

奢侈香水品牌ÆTHER的官网，K2.6 Agent在「极致美学」上的统治力展现得最充分。

只见一支琥珀色香水瓶在大理石台面上，瓶内液体缓慢旋转，光线穿透玻璃投射出焦散纹。

「ÆTHER」五个字母用Cormorant Garamond衬线体叠在瓶身上。La Collection区展示5款香水，可拖拽切换。

5款香水、5套完整香调金字塔、5句手写文案、5张各不相同的瓶身图。

13小时不眠不休，300个分身狂敲代码！开源第一易主了

这些网站能做到这个水准，背后是K2.6模型加上Kimi Agent 模式 harness 的实力。超过了 Google AI Studio中的Gemini 3.1 Pro。

13小时不眠不休，300个分身狂敲代码！开源第一易主了

产出的是可以直接丢进项目的React组件和HTML/CSS代码，带动画关键帧、hover状态、滚动触发动效，甚至拖拽界面和多步表单，跟静态Mockup完全两码事。

前端编码的审美是 Kimi 从 K2.5 就开始卷的能力，到 K2.6 又券出了新境界。没猜错的话，这应该是杨植麟在2025年底内部信中提到的agent产品taste之一？

300个Agent，4000步，一次交付

1T巨量参数，每个token只激活32B的开源MoE，384个专家选8个激活。

连续编码13小时不断线，单次修改超过4000行代码。

内部实测中自主重构了一个8年历史的金融撮合引擎，峰值吞吐量涨了133%。

有了这个底子，Agent集群才真正有了用武之地。

13小时不眠不休，300个分身狂敲代码！开源第一易主了

长程编码解决「一个人能干多久」，Agent集群解决「一支团队能做多大的事」。

K2.5时代是100个子Agent、1500步。K2.6直接拉到300个子Agent、4000步。

不同技能特长的Agent互补协作，一次运行就能交付从文档到网页、从PPT到表格的全套产物。

过去丢给Kimi一个复杂任务，它一个人从头干到尾，遇到不擅长的环节就可能卡住。现在它会自己拆活、组队、分头干，每个子Agent专攻自己擅长的那块，最后汇总交付。

Claw Bench的内部测试结果显示，K2.6在无需人工干预的长时间自主运行场景中提升尤为明显。

在自主Agent场景中，K2.6与OpenClaw、Hermes Agent配合可长达5天持续自主运行。

13小时不眠不休，300个分身狂敲代码！开源第一易主了

这个「集群」到底能干什么？我们做了三轮测试。

30个Agent写30座城市的凌晨四点

首先，让Agent们化身为30座城市在凌晨四点仍然醒着的一个人。

拉各斯的发电机维修工、孟买的送报员、里约的沙滩清洁工、新加坡的港口调度员、旧金山的程序员、马尼拉呼叫中心的夜班接线员……

每人写一段200字以内的第一人称片段，只写动作和感官，禁止出现「孤独」「寂寞」等直白情感词。

13小时不眠不休，300个分身狂敲代码！开源第一易主了

这类任务的难点不在单篇文字，而是30篇之间不能撞。

拉各斯维修工写的是「柴油滴在指关节上，油膜裹住皮肤的纹理，滑腻的触感像涂了一层冷蜡。我握紧扳手，将十六毫米套筒扣住螺栓，顺时针拧动，金属与金属碰撞出咔哒咔哒的咬合声」。

旧金山程序员写的是「Cherry青轴的咔哒声在黑暗里格外脆。食指敲下回车，蓝光从屏幕扑到脸上，眼皮被刺得一紧」。

马尼拉接线员写的是「隔断板上女儿的相片边角翘起来了，我用小拇指把它按平，胶纸的粘性不够了」。

感官锚点没有一个重复，每页的背景图也是匹配生成的。30张图30种气氛，视觉风格统一在深夜的暗调里。

13小时不眠不休，300个分身狂敲代码！开源第一易主了

Skill × Agent集群，复刻高盛研报

Agent集群负责干活，但「按什么标准干」还需要一个东西来定义。

Kimi Agent的技能（Skill）就是干这个的。

系统内置了上百个官方推荐技能包，用户也可以自己创建，输入斜杠「/」即可调用。

两者叠在一起会怎样？

我们上传一份高盛的研究报告，让Kimi K2.6分析架构、语言风格，并总结出一个Skill。

13小时不眠不休，300个分身狂敲代码！开源第一易主了

做好之后，就可以直接调用这个最新的技能goldman-research-report，让Kimi K2.6做一份类似的调研报告：

2026年的硅谷AI竞争格局，需要提及Anthropic、OpenAI、谷歌、xAI、Meta。

命令一发出，一大批Agent全部上线，每一人分工任务明确。

比如，纳什负责OpenAI、唐墨负责Anthropic、逸飞谷歌、莉香xAI、胡博士Meta......

13小时不眠不休，300个分身狂敲代码！开源第一易主了

然后，这些Agent团队分别开始推进自己的子任务的报告，每一个完成后，都会主动汇报已完成。

调研完成后，进入交叉验证阶段，素材事实性没有问题后，交由「高盛报告撰写员Agent」再次分配任务。

13小时不眠不休，300个分身狂敲代码！开源第一易主了

最后，就得到了一份非常详实，且1:1复刻「高盛风格」的硅谷局势分析的Word版报告。

13小时不眠不休，300个分身狂敲代码！开源第一易主了

一次出三件套，跨文档数据零误差

加大难度。

这次要求Agent集群一次性交付PDF深度报告、Excel数据底表和英文PPT三件套，主题是全球AI基础设施竞争情报，覆盖芯片、云计算、数据中心、网络设备四个层级的60家企业。

Agent集群跑完后交付了一份76页的PDF、一份Excel底表和一套PPT。

PDF采用摩根士丹利蓝皮书风格，内容细到芯片架构的算力密度公式和NVIDIA B200 vs AMD MI350X的参数对比表。

13小时不眠不休，300个分身狂敲代码！开源第一易主了

同样的，系统也自动做了跨文档一致性验证，五项检查，全部绿勾。

60家企业的名称和数据，在PDF、Excel、PPT里对得上每一个数字。

这种「交付即可审计」的完成度，放在真人团队里都不一定做得到。

One More Thing

Agent集群让AI学会了自动化分工。

但下一步的问题更大，能不能把人类和各种不同来源的Agent放在一个群组里，像真正的团队一样协作？

人类统治地球靠的是大规模协作，单个人打不过老虎。

AI Agent走向实用化也在走同样的路，从个体智能到群体智能，再到人机混合智能。

Kimi团队的答案叫「Claw群组」，目前已开启小范围内测。

用户可以接入来自任何设备、任何供应商、运行任何模型的龙虾，每个龙虾携带各自的工具包、技能和持久化记忆。首批兼容OpenClaw，后续会加入Hermes Agent等框架。

无论部署在本地笔记本、手机还是云端，都能进入同一个协同办公群组。

K2.6在群组中担任协调者（包工头），根据Agent的技能画像动态匹配任务。人类是下达任务的甲方。

当某个Agent故障或停滞时，协调者自动重新分配任务或生成子任务，对交付物全生命周期进行主动管理。

Kimi自己的营销团队已经在用Claw群组跑内容生产流水线。有人教自己的虾学会了剪视频，有人教自己的虾调研社媒热帖，有人的虾是做Benchmark图的好手……那为什么不把他们拉到一个群里干活。

Demo Maker、Benchmark Maker、Social Media Agent、Video Maker各司其职，K2.6做全局协调，从创意到成品一条线拉通。

从一个Agent做一件事，到300个Agent做一套事，到人类和Agent坐进同一个群里一起干活……进化的从来不是技术，而是“我们“的边界。

文章来自于"新智元"，作者 "好困桃子"。

关键词: AI新闻 , kimi , kimi k2.6 , K2.6 Agent

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0