近日 Kimi 也开始小规模内测一个 Agent 新品,名称在一众 Agent 友商中,很有人文味与自信,
叫做:「OK Computer」。
不同于此前 Kimi 发布的 Researcher 专精 Deep Research 任务,「OK Computer」则是Kimi 模型的通用 Agent 模式,配备了单独虚拟电脑,支持更多工具调用,能够完成 网站开发、PPT 设计、数据可视化分析、深度研究、方案策划 等任务。
自然,从 25 年 3 月 Manus 发布以来,我们已经见过了层出不穷的通用 Agent 产品,如 Claude Code、扣子空间、Skywork、Lovable 等等……
阅尽千帆,本文仍想通过一系列典型 Agent 任务实测,为你解析 Kimi OK Computer 的真实水平。
我也会将它的表现,和过往深度体验的 Manus 等顶尖 Agent 进行参照,
来看这个以 90 年代最伟大的摇滚专辑之一命名的 Agent,能否如其名般地带来惊喜。
与先前已发布的 Kimi Researcher 一脉相承,OK Computer 与已有通用 Agent 产品不同,继续延续了端到端强化学习的训练路线:模型即 Agent。
为了能够更好地真实探究 OK Computer 的水平,我已将测试设计为三部分:
1.网页应用开发:从 0-1 设计、开发 Html 宝可梦养成与对战游戏,考察 Agent 自主深度规划与长程执行
2.复杂数据可视化:给定数千条表格数据,呈现可视化分析
3.其他 case 展示,包括绘制 AI PPT、制作个人博客等
并适当选择同类任务下备受用户好评的友商 Agent 进行参照,校准它当下的行业身位。
你可以带着对 Kimi Agent 的好奇,在实测中找到答案。
文末我将向你分享我理解的,OK Computer 对于 Kimi 的特殊意义。
要测试一个 Agent 的极限,比较好的方式就是给它足够复杂、多步骤、开放式的项目。
我选择让 Agent 从 0-1 自主设计 Html 版宝可梦养成对战游戏,并选择了擅长构建 Web 应用的 Manus、Lovable 作为参照对比。
此题难度在于,考验 Agent 的 Coding 能力外,更考验 Agent 自主规划的完整性,以及长程任务中的 推理-执行-反馈 的循环质量。
测试 Prompt 如下:
我录了一下各个 Agent 生成的网页游戏的效果,你可以自行来看看效果:
1)Kimi - OK Computer:
OK Computer 独立设计了一个适配 Web 玩法的全新 UI。生成的游戏系统更为完整,比起 Manus、Lovable,多了大厅、宝可梦图鉴,物品背包界面。
对战系统基本实现,但不能更换上阵宝可梦。另外还能查看宝可梦的详细属性,有丰富的疗伤物品、精灵球等不同物品的管理系统。
不过,虽然规划了区域探索、商店、成就系统的功能入口,但并没有一次完成开发,还是有些遗憾。
应用整体无恶性 bug,作为 one prompt 结果相当完整与稳定,在游戏方案的规划上给出了惊喜。
2)Manus:
Manus 作为我的老朋友厂商,表现一如既往的亮眼。虽然首页略微粗糙,但整个游戏的加载过场却是最为接近原版。
另外,Manus 唯一实现了地图探险功能(但地图显示有明显显示 Bug)。
不过你可以看到随着我点击方向键,是能触发出“草丛遇怪”的逻辑。也是唯一一个直接使用了外网宝可梦图像资源,作为游戏贴图的 Agent。
但比起 Kimi,其游戏性功能的实现熟练就少了许多,没有实现背包,也没有宝可梦栏管理等,算是各有侧重。
3)Lovable:
Lovable 在初始界面上给到了最风格化的效果。
但整体实现的玩法实现的是三者最少:仅支持选择宝可梦进行战斗。
战斗系统,比起其他家,还少了道具使用、逃跑等基础功能。从这次测试来看,Agent 可能存在规划不足,执行轮次过少的问题。
另外,下图为移动端兼容效果对比:
BTW:关于各家选择的 UI 风格,我倒是觉得不算决定性差异,因为也没有规定 UI 风格要求 100% 复刻原版游戏,只要 UI 与玩法系统自洽,能稳定运行即可。
综合列出效果对比如下:
不难看出 OK Computer 继承了 K2 模型的优秀 Coding 能力,在另外两家使用 Claude 模型的情况下,仅凭自有国产模型,网页开发效果不弱下风。
另外,可能是得益于端到端强化学习路线,Kimi 也确实展现出 One prompt 下,极为优秀的 Agent 自主规划与多轮执行能力,以及熟练使用图片生成等工具能力。
在 OK Computer 的宣传视频中,着重宣传了支持海量数据上传,单次处理百万行数据的可视化分析能力。
为了能够测试 Agent 的复杂数据的关联洞察效果,我选择了让 AI 们,来尝试处理来自 IMDb 的数据集,每个数据表包含上千条电影和电视剧数据。
测试 Prompt 如下:
共找了 5 份数据集:
每一份数据表内容大概是这样的,以独立剧集的最小粒度数据组成:
在接到任务后,Kimi 首先规划了任务执行的环节:
随后,自行编写了 python 脚本,对数据进行清洗和处理(嗯,不是直接用 LLM 文本能力读取,有效避免幻觉问题,还是很聪明的)
在自主连续运行长达 31 步子任务后,OK Computer 输出了以下可视化数据分析页面:
能够看出分析维度非常多元。
特别棒的是, OK Computer 能够根据分析数据的类型,自主选择太阳图、雷达图、三维散点图、小提琴图等不同合适的图表,来展项数据趋势。
这一点倒是在用过的 Agent 里,会更具有主动性。
另外,这是同提示下 Manus 的效果:
必须声明,Manus 在同类产品中,产出的质量已经是大幅领先。
但仅论可视化的数据呈现,Kimi OK Computer 明显在该类任务中,能够提供更加复杂、多维的效果。
值得一提的是,在测试本轮任务中,我发现不同 Agent 产品对上传文件数量有着不同的控制。
实测中 Kimi、Manus、Skywork 没有限制文件上传数量,而 Minimax Agent、扣子空间 均限制上传数量为 10 个以内。
这项区别也会影响部分用户的选择。
另外也跑了一些零散、但效果都挺不错的 Case,与你分享 Kimi OK Computer 的各项表现:
基于上面的 IMDb 剧集数据,我又新开对话,让其生成主题数据洞察 PPT。
OK Computer 效果如下:
整体来说,OK Computer 所输出的 PPT 设计不错,图文并茂,设计符合主题风格。部分元素会超出页面,需要和 Agent 沟通修改要求后,进行一次修复。
同 Prompt 任务下,对比精通 PPT 的 Skywork 的效果:
结论是,从设计角度来看 Kimi 胜出,幻灯片高度更一致,适合演讲呈现;
而内容丰富度 Skywork 则更胜一筹,更适合内部汇报。
强调一个特别好用的点,对于用户真实使用时,OK Computer 还支持了高自由度的编辑,不仅是文本替换,还支持更改格式、添加图片、流程图、新幻灯片,基本与完整 Office 功能等同。这一点在其他友商 Agent 中格外少见。
导出到本地后,样式与网页 Html 版 PPT 基本一致,不会产生常见的排版变形问题。
诚然在测试过程中,我还是能观察到 OK Computer 待改进的一些问题。
譬如:
暂时还不支持用户接管 Browser,所以无法让 Kimi 替自己调研一些需要登录的网站内容;
在给 PPT 配图时,有时也会过度依赖 AI 生图,而不是正确使用网页图表组件,创建数据图。
这些问题我也一一反馈给了在 Kimi 的朋友,期待他们的改进。
但我们回过头来不能忽略的一点是:
与全球化 Agent 产品不同,Kimi OK Computer 始终使用的都只是 Kimi K2 这款自研 LLM 模型。
不依靠 Claude 的 Coding 能力、不使用 Gemini 的分析规划能力,OK Computer 在众多友商 Agent 之中,依然能展示出其独到的优势。
不得不说,在测试过程中,还是令我感到诧异与惊喜,也值得国内用户试用。
此前,Kimi 早就发布了 Researcher 产品。
当时我就评论,Kimi Researcher 达到了国内最佳的 Deep Research 效果(非常长且细致的研究过程,以及相对可控的幻觉水平,时常能关联分析出意外的好观点),
将其大量推荐给了我所认识的 AI 从业者、投资人、学生朋友:
“如果对国外资料检索没有诉求,Kimi Researcher 很可能就是国内研究质量最佳,分析结论常有意外惊喜的 Deep Research 产品”
⬆️ 余杭水质问题发生时,曾用 Researcher 进行事件分析,体感效果仅次于 Gemini DR,为国内最佳
月之暗面研究员 @冯一尘 此前在知乎,公开分享了内部洞察:
Researcher 研发过程中,Kimi 团队内部对于 Agent 保持了两个关键信念,一是要做“能长思考”的Agent,二要用端到端强化学习。
他们认为,区别于传统 Agent 的 Workflow 拼装 或 SFT 训练方案, Kimi 通过端到端 RL 所训练的 Agent 模型,能够挣脱“固定提示”的束缚,更加灵活通用,具备更好的主动反思,多轮行动的积极效果。
(此文不论两种技术线路的终局优劣,但这条路线下的 Kimi Researcher,也确实在用户群体中备受好评)
时至今日,Kimi 推出的「OK Computer」新 Agent 模式,依然遵循着这些理念:
借助端到端强化学习技术,将 Kimi K2 模型训练为原生 Agent,让模型学会了 文件系统、浏览器、终端、代码/图片/音频生成 等 20 多种工具的使用方式,自然涌现出「完成一项复杂 Agent 任务」的内在知识。
实测下来,OK Computer 也确实兼具了 K2 模型与模型即 Agent 路线的优势,包括:
1. 继承 K2 的优秀 Coding 能力:生成具备强美观度的前端产物(网页、PPT 等)
2. One prompt 下更好的规划执行:发挥端到端强化学习的优势,在单一提示下,实现更多、更全面的推理,执行轮次更多、报错更少
3. 丰富的工具能力:图片、音频生成;浏览器使用;使用虚拟电脑作为响应环境等
但,如果仅仅将这三点看作孤立的优势,我们就错过了 OK Computer 真正想讲述的故事。
这个故事的核心,是 Kimi 对模型智能的又一次扩展:
从文本模型,扩展为能「拆解目标、规划长程任务、通过行动-反馈达成更优结果」的全能型 Agent。
又名——模型即 Agent。
对于我们用户,尤其是非技术的普通 AI 使用者而言,
则是国内多了一个在轻量网页开发、PPT 设计、数据分析等复杂任务中,表现都相当不错的,全新的全栈 AI 助理。
希望一泽的文章对你有所启发。
如果觉得这波内容不错,希望帮忙点个赞,分享给你身边有趣的朋友们~
Ref:冯一尘,知乎下的 Kimi Researcher 回答:https://www.zhihu.com/question/1919712376204256921/answer/1920925901035644513
文章来自于微信公众号 “一泽Eze”,作者 “一泽Eze”
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。
项目地址:https://github.com/mannaandpoem/OpenManus
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0