AI的价值不是聊天,而是能干活

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI的价值不是聊天,而是能干活
7374点击    2025-09-26 10:34

AI的价值不是聊天,而是能干活

你有没有想过,AI助手的终极形态应该是什么样的?是更聪明的聊天机器人,还是能真正帮你完成复杂工作的数字员工?今天,当我体验了Kimi刚刚发布的"OK Computer" Agent模式后,我突然意识到:AI行业可能正在经历一次根本性的范式转变——从"回答问题"到"完成任务"。


这不只是功能上的升级,而是整个AI产品思维的重构。我们习惯了与AI对话,问它问题,听它回答。但Kimi的"OK Computer"告诉我们:AI的价值不应该止步于提供信息,而应该延伸到真正解决问题、完成任务。这种转变看似微妙,实际上却可能重新定义我们对AI工具的期待和使用方式。


"OK Computer":不只是名字这么简单


当我看到Kimi将新的Agent模式命名为"OK Computer"时,立刻想到了Radiohead那张同名专辑。1997年,这张专辑预言了数字时代人类与技术的复杂关系。27年后,Kimi用同样的名字推出AI agent,这种巧合让我觉得别有深意。


"OK Computer"模式的核心理念很直接:让Kimi从一个聊天伙伴变成一个能独立完成复杂任务的工作团队。我体验后发现,这不是简单的功能叠加,而是对AI助手定位的重新思考。传统的AI助手像一个知识渊博的顾问,你问它答。而"OK Computer"更像是一个包含产品经理、设计师、数据分析师、前端工程师的虚拟团队,能够理解你的需求,制定执行计划,并真正完成从调研到交付的全流程。


从技术实现角度来看,这背后是Kimi K2模型强大的Agentic能力在发挥作用,而我还注意到:单个Agent任务的Token消耗量可达常规对话模式的几十倍。这既反映了是AI从"说话"到"做事"的本质差异,因为说话只需要生成文字,做事却需要调用工具、执行步骤、处理反馈、迭代优化。此外,OK Computer又有和Genspark等其他通用Agent很不一样的地方,因为基础模型就是自家的K2,在处理速度上,一方产品明显也比其他通用智能体要快很多。


让我印象深刻的是"OK Computer"内置的工具集:待办事项、Python、终端、浏览网页、文字搜索、图片搜索、图片生成、音频生成、专业财经数据源、网站部署等。这不是随意的功能堆砌,而是经过深思熟虑的工具组合。每个工具都对应着现实工作中的具体需求,组合起来就能处理复杂的多步骤任务。


通用问答只是序章,真正的赛场在于"让大模型成为专业工作的标配"。这种定位转变非常关键。它意味着AI不再满足于做一个万能的问答机器,而是要深入到具体的工作场景中,成为真正的生产力工具。


从"回答问题"到"完成任务"的跨越


我仔细分析了"OK Computer"提供的几个核心应用场景,发现每一个都代表着从信息提供到任务完成的跨越。


第一个场景是网站开发。传统AI助手可能会告诉你如何编写HTML、CSS或JavaScript,给你一些代码片段让你自己组装。但"OK Computer"会像一个完整的产品团队那样工作:理解你的业务需求,规划网站结构,设计用户界面,编写代码,最后还能帮你部署上线。这是从"教你怎么做"到"帮你做完"的根本区别。


AI的价值不是聊天,而是能干活


第二个场景是数据分析报告。以往你可能需要先学习如何使用Excel或Python处理数据,然后学习各种可视化工具,最后还要掌握报告撰写技巧。现在"OK Computer"可以直接接手这个完整流程:读取你的数据文件,进行深度分析,生成洞察,创建可视化图表,撰写分析报告。你只需要提出需求,它负责执行到底。


第三个场景是演示文稿制作。这个场景特别能体现AI agent的价值。制作一个专业PPT需要内容规划、资料搜集、图片选择、版面设计、视觉统一等多个环节。"OK Computer"可以处理这个完整链条,最终交付的还是可编辑的PPT文件而不是静态PDF,这说明它真正理解了用户的后续使用需求。


这种"端到端"的任务完成能力,让我想起了一个重要趋势:AI正在从"增强智能"向"自主智能"进化。增强智能是辅助人类做决策,提供信息和建议。自主智能则是在明确目标后,独立规划和执行整个任务流程。"OK Computer"显然更接近后者。


我认为这种转变的意义不只是技术上的进步,更是对AI应用价值的重新定义。过去我们评价一个AI助手好不好,主要看它回答问题的准确性和全面性。未来我们可能更关心它能否高效完成复杂任务,能否真正减轻我们的工作负担。


技术实现背后的深层逻辑


要理解"OK Computer"的技术创新,我们需要回到Kimi K2模型的底层能力。从我了解到的信息来看,K2在agent任务上的表现确实令人印象深刻。


我注意到X上来自Hugging Face联创的一条帖子:在最新的agent评测中,"Kimi-K2 from @Kimi_Moonshot is leading open weight"。它表明Kimi K2在开源模型中确实具备了全球领先的agent能力,这为"OK Computer"的推出提供了坚实的技术基础。


AI的价值不是聊天,而是能干活


从技术架构来看,Kimi K2采用了Mixture-of-Experts(MoE)设计,总参数1万亿,激活参数32亿。具体来说,模型包含61层(含1个密集层),7168的注意力隐藏维度,384个专家,每个token选择8个专家,还有1个共享专家。这种设计的巧妙之处在于,虽然模型规模庞大,但推理时只需要激活其中一小部分,既保证了能力又控制了计算成本。更重要的是,它针对agentic任务进行了专门优化,在训练过程中就考虑了多工具协同、长链路任务执行、错误恢复等agent特有的需求。


我特别关注到Moonshot在模型训练中引入的创新技术。他们开发的MuonClip优化器解决了一个关键问题:大规模MoE模型训练中的attention logits爆炸。传统的logit soft-capping和query-key归一化方法都不够有效,MuonClip通过直接重新缩放query和key投影权重矩阵来控制attention logits的规模。这个看似简单的技术创新,让15.5万亿tokens的训练过程实现了零训练崩溃,这种稳定性对agent任务至关重要。


在agent能力的培养方面,Moonshot采用了两个重要策略。第一是大规模agent数据合成,他们开发了一个综合管道,可以模拟真实世界的工具使用场景。这个系统能够系统性地演化数百个包含数千种工具的领域,然后生成数百个具有不同工具集的agent。所有任务都基于评估标准,agent与模拟环境和用户agent交互,创建现实的多轮工具使用场景。LLM判断器根据任务标准评估模拟结果,筛选出高质量的训练数据。


第二个策略是通用强化学习。这里的挑战是如何将RL应用到既有可验证奖励又有不可验证奖励的任务上。对于可验证任务(如数学、编程竞赛),有明确的对错标准;对于不可验证任务(如写研究报告),就需要更复杂的评估机制。Moonshot的解决方案是使用自我判断机制,让模型作为自己的评判者,为不可验证任务提供可扩展的、基于标准的反馈。同时,他们用可验证奖励的在线策略推出来持续更新评判器,使评判器在最新策略上不断改进评估准确性。这实际上是用可验证奖励来改进对不可验证奖励的估计。


从工具调用的角度来看,"OK Computer"的设计体现了对agent工作模式的深度理解。它不是简单地把各种工具拼接在一起,而是让模型学会如何像人类团队那样协作:产品经理负责需求理解和任务分解,数据分析师负责数据处理,设计师负责视觉呈现,工程师负责技术实现。这种角色化的工作模式,让agent能够更有序地处理复杂任务。


我还注意到K2模型在工具调用格式正确性方面的优化。传统模型经常会生成格式错误的工具调用,导致任务执行失败。K2通过专门的训练和推理优化,大幅提高了工具调用的成功率。这种可靠性提升看似微不足道,实际上对agent的实用性有决定性影响。


商业模式的战略转向


"OK Computer"的推出,反映了Kimi在商业策略上的重要调整。我观察到,Moonshot正在从通用问答市场转向专业生产力市场,这种转向背后有着深刻的商业逻辑。


AI的价值不是聊天,而是能干活


通用问答市场竞争激烈,产品同质化严重。豆包、元宝等产品都在这个领域投入巨大资源,但很难形成明显的差异化优势。更关键的是,通用问答的商业价值相对有限,用户付费意愿不强。相比之下,专业生产力市场的用户对效率提升有明确需求,付费意愿更强,商业价值更高。


我同时也注意到Sam Altman最近宣布,OpenAI将在未来几周推出系列算力密集型产品并收取额外费用。这与Kimi的"OK Computer"策略不谋而合。两家公司都意识到,真正有价值的AI应用需要更多算力投入,而用户也愿意为真正解决问题的服务买单。


"OK Computer"采用灰度测试的发布策略也很有意思。优先给曾经打赏过Kimi的用户提供体验席位,这不只是技术上的考虑,更是商业模式的探索。它在测试用户对高价值服务的付费接受度,为后续的订阅制或按使用计费模式做准备。


从成本结构来看,agent模式的Token消耗是常规对话的几十倍,这意味着更高的运营成本。但同时,它提供的价值也是几十倍的提升。一个完整的网站开发项目,传统上可能需要几个人协作几天完成,现在一个agent可能几小时就能交付原型。这种效率提升为更高的定价提供了合理性。


我认为Kimi的这种转向具有行业示范意义。它告诉我们,AI产品的未来不在于比拼谁的回答更准确更全面,而在于谁能真正解决用户的实际问题。这种从"信息提供者"到"任务完成者"的转变,可能会引领整个AI行业的发展方向。


AI Agent时代的开端


"OK Computer"的发布让我相信,我们可能正站在AI Agent时代的门槛上。这个时代的特征不是AI变得更聪明,而是AI开始真正参与到人类的工作流程中。


我观察到一个重要趋势:越来越多的AI公司开始从对话型产品转向agent型产品。OpenAI在准备推出算力密集型产品,Google在强化Assistant的任务执行能力,Anthropic的Claude也在向工具集成方向发展。这种集体转向说明,行业已经意识到纯粹的对话AI价值有限,真正的机会在于能够独立完成任务的AI agent。


但我也看到了一些挑战。Agent任务的复杂性意味着更高的失败风险,一个环节出错可能影响整个任务。这对模型的可靠性提出了更高要求。同时,agent的自主性也带来了控制问题:如何确保agent按照用户意图工作,如何处理意外情况,如何在效率和安全之间找到平衡。


从技术发展的角度看,AI agent需要的不只是更大的模型,更需要更好的工具集成、更强的任务规划能力、更可靠的错误处理机制。Kimi在这些方面的探索值得关注。他们不只是简单地把现有工具连接起来,而是让模型学会如何像人类专家那样使用这些工具。


从用户习惯培养的角度看,agent模式还需要时间被广泛接受。我们习惯了自己控制每个步骤,把重要任务委托给AI确实需要很大的信任。但我相信,当人们看到agent能够可靠地完成复杂任务时,这种信任会逐步建立。


Kimi的"OK Computer"可能不是最终形态,但它代表了一个重要的开始。它告诉我们,AI的价值不应该只是回答问题,而应该是解决问题。这种理念的转变,可能比任何技术突破都更重要。


对未来工作方式的思考


最后思考一个更深层的问题:当AI能够独立完成越来越多的工作任务时,人类的角色应该如何定义?


我的答案是,人类将从执行者转向创意者和决策者。在"OK Computer"模式下,人类不需要知道如何编写代码、如何制作PPT、如何分析数据,但需要知道要解决什么问题、达到什么目标、满足哪些标准。换句话说,人类的价值将更多体现在"想要什么"而不是"如何做到"。


这种转变对教育和培训也有深刻影响。传统教育强调技能掌握,教你如何使用Excel、如何编程、如何写文案。但在AI agent时代,这些技能的价值会大大降低。相反,问题识别能力、需求表达能力、结果评估能力会变得更加重要。


我也思考了这种转变可能带来的风险。当我们习惯于把复杂任务委托给AI时,是否会逐渐失去独立解决问题的能力?当AI能够完成大部分脑力工作时,人类如何保持思维的敏锐性?这些问题没有标准答案,但值得我们认真考虑。


从社会分工的角度看,AI agent可能会重新定义很多职业。一些以技能执行为主的工作可能会受到冲击,但同时也会创造新的机会。比如AI agent训练师、任务设计师、结果审核员等新职业可能会兴起。关键是我们要主动适应这种变化,而不是被动等待。


最终,我认为"OK Computer"这样的AI agent并不是要取代人类,而是要解放人类。它让我们从繁琐的执行工作中解脱出来,把时间和精力投入到更有创造性、更有意义的事情上。这种解放的前提是,我们要学会与AI协作,学会正确地使用这些强大的工具。


AI的价值不是聊天,而是能干活


从聊天到干活,从回答问题到完成任务,AI的进化远未结束。"OK Computer"代表的可能只是这场变革的一个片段,但它足以让我们窥见未来的模样:一个人类与AI深度协作、各自发挥优势的世界正在到来。




文章来自于微信公众号 “深思圈”,作者 “深思圈”

关键词: AI新闻 , Kimi , OK Computer , 智能体
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md