13小时不眠不休,300个分身狂敲代码!开源第一易主了

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
13小时不眠不休,300个分身狂敲代码!开源第一易主了
5688点击    2026-04-23 10:04

开源AI王座一夜易主!Kimi K2.6出道即巅峰,展示了恐怖的「全栈交付」能力。它不仅能复刻高盛研报、手搓奢华官网,甚至能和人类在群组里并肩打工。


开源模型追平甚至反超闭源三巨头,这件事真的发生了。


4月20日深夜,Kimi K2.6出道即开源。


13小时不眠不休,300个分身狂敲代码!开源第一易主了


13小时不眠不休,300个分身狂敲代码!开源第一易主了


  • HLE「人类最后的考试」54.0分,碾压GPT-5.4和Claude Opus 4.6
  • SWE-Bench Pro软件工程实战58.6分,超过GPT-5.4的57.7
  • Terminal-Bench终端编码66.5分,而GPT-5.4只有60.4
  • Artificial Analysis评测中,更是直接坐上了世界开源第一王座


13小时不眠不休,300个分身狂敲代码!开源第一易主了


但我们今天抛开跑分,只聊一件事:K2.6到底能干出什么活。


代码写完了,设计也交了


首先,让K2.6 Agent制作一个近地轨道旅行公司ORBITAL的官网,要求植入太空舱座位选择和航班预订功能。


13小时不眠不休,300个分身狂敲代码!开源第一易主了


打开的瞬间,商业航天的高级感直接拉满。


全屏视频背景是太空舱窗口视角,地球弧面缓缓转过,大气层边缘泛着蓝光。


右下的飞行数据面板用等宽字体列出关键参数,左上的荧光青小圆点在缓慢呼吸闪烁,模拟系统在线状态。


往下滑动,是一条垂直时间线驱动的飞行叙事。


从T-60:00在樟宜航天港换上定制加压服,到T+03:00推进阶段承受过载,到T+08:00零重力开始,一直到T+92:00 Touchdown,太空舱溅落海面,回收潜水员围上来。每个阶段带一个橙色关键数据和AI生成的场景配图。


一段prompt,一次生成,从品牌视觉系统到可交互的舱位SVG图,全部到位。


13小时不眠不休,300个分身狂敲代码!开源第一易主了


K2.6 Agent做出来的不只是好看的前端,它能做全栈交付。


后台的航班预订系统是真的能跑的。选日期、挑座位、填乘客信息,预约数据做了持久化存储,每航班6座上限,满了自动锁定。


这个网站不是一个「看样子」的空壳,它带着完整的后端逻辑。


13小时不眠不休,300个分身狂敲代码!开源第一易主了


换个题材。


同样的prompt结构,K2.6 Agent产出了深海探索研究机构「THALASSA」的官网。


首屏运镜从北大西洋海面垂直下沉入水,穿过水线的瞬间画面一分为二,蓝色从浅到深渐变,远处墨蓝中亮着两点暖黄色潜水器灯光。


三台潜水器参数卡片精确到推进方式和观察窗尺寸,6种深海生物各占一屏。田野笔记区三篇文章分别署名首席科学家、海洋生物学家和纪录片导演。


13小时不眠不休,300个分身狂敲代码!开源第一易主了


奢侈香水品牌ÆTHER的官网,K2.6 Agent在「极致美学」上的统治力展现得最充分。


只见一支琥珀色香水瓶在大理石台面上,瓶内液体缓慢旋转,光线穿透玻璃投射出焦散纹。


「ÆTHER」五个字母用Cormorant Garamond衬线体叠在瓶身上。La Collection区展示5款香水,可拖拽切换。


5款香水、5套完整香调金字塔、5句手写文案、5张各不相同的瓶身图。


13小时不眠不休,300个分身狂敲代码!开源第一易主了


这些网站能做到这个水准,背后是K2.6模型加上Kimi Agent 模式 harness 的实力。超过了 Google AI Studio中的Gemini 3.1 Pro。


13小时不眠不休,300个分身狂敲代码!开源第一易主了


产出的是可以直接丢进项目的React组件和HTML/CSS代码,带动画关键帧、hover状态、滚动触发动效,甚至拖拽界面和多步表单,跟静态Mockup完全两码事。


前端编码的审美是 Kimi 从 K2.5 就开始卷的能力,到 K2.6 又券出了新境界。没猜错的话,这应该是杨植麟在2025年底内部信中提到的agent产品taste之一?


300个Agent,4000步,一次交付


1T巨量参数,每个token只激活32B的开源MoE,384个专家选8个激活。


连续编码13小时不断线,单次修改超过4000行代码。


内部实测中自主重构了一个8年历史的金融撮合引擎,峰值吞吐量涨了133%。


有了这个底子,Agent集群才真正有了用武之地。


13小时不眠不休,300个分身狂敲代码!开源第一易主了


长程编码解决「一个人能干多久」,Agent集群解决「一支团队能做多大的事」。


K2.5时代是100个子Agent、1500步。K2.6直接拉到300个子Agent、4000步。


不同技能特长的Agent互补协作,一次运行就能交付从文档到网页、从PPT到表格的全套产物。


过去丢给Kimi一个复杂任务,它一个人从头干到尾,遇到不擅长的环节就可能卡住。现在它会自己拆活、组队、分头干,每个子Agent专攻自己擅长的那块,最后汇总交付。


Claw Bench的内部测试结果显示,K2.6在无需人工干预的长时间自主运行场景中提升尤为明显。


在自主Agent场景中,K2.6与OpenClaw、Hermes Agent配合可长达5天持续自主运行。


13小时不眠不休,300个分身狂敲代码!开源第一易主了


这个「集群」到底能干什么?我们做了三轮测试。


30个Agent写30座城市的凌晨四点


首先,让Agent们化身为30座城市在凌晨四点仍然醒着的一个人。


拉各斯的发电机维修工、孟买的送报员、里约的沙滩清洁工、新加坡的港口调度员、旧金山的程序员、马尼拉呼叫中心的夜班接线员……


每人写一段200字以内的第一人称片段,只写动作和感官,禁止出现「孤独」「寂寞」等直白情感词。


13小时不眠不休,300个分身狂敲代码!开源第一易主了


13小时不眠不休,300个分身狂敲代码!开源第一易主了


这类任务的难点不在单篇文字,而是30篇之间不能撞。


拉各斯维修工写的是「柴油滴在指关节上,油膜裹住皮肤的纹理,滑腻的触感像涂了一层冷蜡。我握紧扳手,将十六毫米套筒扣住螺栓,顺时针拧动,金属与金属碰撞出咔哒咔哒的咬合声」。


旧金山程序员写的是「Cherry青轴的咔哒声在黑暗里格外脆。食指敲下回车,蓝光从屏幕扑到脸上,眼皮被刺得一紧」。


马尼拉接线员写的是「隔断板上女儿的相片边角翘起来了,我用小拇指把它按平,胶纸的粘性不够了」。


感官锚点没有一个重复,每页的背景图也是匹配生成的。30张图30种气氛,视觉风格统一在深夜的暗调里。


13小时不眠不休,300个分身狂敲代码!开源第一易主了


Skill × Agent集群,复刻高盛研报


Agent集群负责干活,但「按什么标准干」还需要一个东西来定义。


Kimi Agent的技能(Skill)就是干这个的。


系统内置了上百个官方推荐技能包,用户也可以自己创建,输入斜杠「/」即可调用。


两者叠在一起会怎样?


我们上传一份高盛的研究报告,让Kimi K2.6分析架构、语言风格,并总结出一个Skill。


13小时不眠不休,300个分身狂敲代码!开源第一易主了


13小时不眠不休,300个分身狂敲代码!开源第一易主了


做好之后,就可以直接调用这个最新的技能goldman-research-report,让Kimi K2.6做一份类似的调研报告:


2026年的硅谷AI竞争格局,需要提及Anthropic、OpenAI、谷歌、xAI、Meta。


命令一发出,一大批Agent全部上线,每一人分工任务明确。


比如,纳什负责OpenAI、唐墨负责Anthropic、逸飞谷歌、莉香xAI、胡博士Meta......


13小时不眠不休,300个分身狂敲代码!开源第一易主了


然后,这些Agent团队分别开始推进自己的子任务的报告,每一个完成后,都会主动汇报已完成。


调研完成后,进入交叉验证阶段,素材事实性没有问题后,交由「高盛报告撰写员Agent」再次分配任务。


13小时不眠不休,300个分身狂敲代码!开源第一易主了


13小时不眠不休,300个分身狂敲代码!开源第一易主了


最后,就得到了一份非常详实,且1:1复刻「高盛风格」的硅谷局势分析的Word版报告。


13小时不眠不休,300个分身狂敲代码!开源第一易主了


一次出三件套,跨文档数据零误差


加大难度。


这次要求Agent集群一次性交付PDF深度报告、Excel数据底表和英文PPT三件套,主题是全球AI基础设施竞争情报,覆盖芯片、云计算、数据中心、网络设备四个层级的60家企业。


Agent集群跑完后交付了一份76页的PDF、一份Excel底表和一套PPT。


PDF采用摩根士丹利蓝皮书风格,内容细到芯片架构的算力密度公式和NVIDIA B200 vs AMD MI350X的参数对比表。


13小时不眠不休,300个分身狂敲代码!开源第一易主了


13小时不眠不休,300个分身狂敲代码!开源第一易主了


同样的,系统也自动做了跨文档一致性验证,五项检查,全部绿勾。


60家企业的名称和数据,在PDF、Excel、PPT里对得上每一个数字。


这种「交付即可审计」的完成度,放在真人团队里都不一定做得到。


One More Thing


Agent集群让AI学会了自动化分工。


但下一步的问题更大,能不能把人类和各种不同来源的Agent放在一个群组里,像真正的团队一样协作?


人类统治地球靠的是大规模协作,单个人打不过老虎。


AI Agent走向实用化也在走同样的路,从个体智能到群体智能,再到人机混合智能。


Kimi团队的答案叫「Claw群组」,目前已开启小范围内测。


用户可以接入来自任何设备、任何供应商、运行任何模型的龙虾,每个龙虾携带各自的工具包、技能和持久化记忆。首批兼容OpenClaw,后续会加入Hermes Agent等框架。


无论部署在本地笔记本、手机还是云端,都能进入同一个协同办公群组。


K2.6在群组中担任协调者(包工头),根据Agent的技能画像动态匹配任务。人类是下达任务的甲方。


当某个Agent故障或停滞时,协调者自动重新分配任务或生成子任务,对交付物全生命周期进行主动管理。


Kimi自己的营销团队已经在用Claw群组跑内容生产流水线。有人教自己的虾学会了剪视频,有人教自己的虾调研社媒热帖,有人的虾是做Benchmark图的好手……那为什么不把他们拉到一个群里干活。


Demo Maker、Benchmark Maker、Social Media Agent、Video Maker各司其职,K2.6做全局协调,从创意到成品一条线拉通。


从一个Agent做一件事,到300个Agent做一套事,到人类和Agent坐进同一个群里一起干活……进化的从来不是技术,而是“我们“的边界。


文章来自于"新智元",作者 "好困 桃子"。

关键词: AI新闻 , kimi , kimi k2.6 , K2.6 Agent
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0