从"工具人"到"数字队友":AI协作革命的最后一公里

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
从"工具人"到"数字队友":AI协作革命的最后一公里
8036点击    2025-06-17 10:05

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。


编者按:尽管AI工具在持续进化,但核心交互模式仍未改变:一人一AI,按顺序交换信息。当AI突破“单人模式”的进化瓶颈,协作革命将重塑人机关系。本文深度剖析从工具到队友的跃迁密码,拆解技术、社交、文化三重挑战,展望群智共生的未来图景。文章来自编译。


这几年AI的爆炸式发展让人惊叹。ChatGPT、Claude等愈发强大的模型早已不再局限于总结文档或生成代码,现在甚至开始攻克更复杂、更专业领域的任务。


尽管取得了惊人进步,但我总觉得少一个重要元素:协作。如今我使用的几乎所有AI工具都停留在“单人模式”——每次只能服务一个人、处理一段对话、完成一项任务。


在联想到AI实验室的远大目标时,这种局限尤其扎眼。OpenAI的山姆·阿尔特曼(Sam Altman)以及Anthropic的Dario Amodei都曾提到要将“AI员工”作为构建“AI组织”的里程碑,但人类的工作(至少现在)从来都不是孤军奋战。


从


无论是重大科学突破还是日常的“邮件工作”,都离不开人际协作。我们会在开会时会头脑风暴,在Slack频道里交换想法,在共享文档中协作,并基于彼此成果继续推进。即便是“独自”工作,也常常需要整合多方信息和对话成果。


我愿称之为“多人AI”。这种智能可同时与多人进行实质性互动——而不只是轮流对话或像数字接力棒一般传递,而是真正参与到动态协作的全程。


这让我对AI发展的新前沿充满期待。不仅因为这会推动自主性和技术能力的提升,更意味着AI需要理解社交动态,并能有效驾驭对话规范。


下面,我们就一起来探讨一下当前面临的技术与文化挑战、看看一些初露端倪的解决方案,以及真正的多人模式AI未来回事什么样的。


从


单人模式的现状


ChatGPT的极简主义有种令人又爱又恨的魅力。提问得答案,要诗得十四行诗。这种“你问我答”的简单交互正是其吸引力的核心——清晰、可预测、易实现。


这种一对一的回合制模式统治着当前的AI生态。无论是用Perplexity做研究、用Midjourney生成图片,还是用Cursor辅助编程,其核心体验都出奇的一致:一人一AI,按顺序交换信息。


即便这些工具持续进化,核心交互模式仍未改变。更主动的界面(如Claude代码或深度研究功能)可能让AI可执行数十甚至上百个中间步骤,但每次“回合”最终仍返回单一结果。同样,ChatGPT和Claude的“企业版”虽然增加了「团队」功能(共享对话、上下文和项目),本质上仍是围绕单人核心的轻量级共享机制——AI自身仍遵循"每次仅处理一个对话"的逻辑。


那么替代模式会是什么样的呢?我认为可以从三种范式来理解:


单人AI:当前的主流模式。用户与AI在独立对话流中互动,AI仅维护该对话的上下文,每次交互视为与单一用户的独立交流。擅长个人助理场景,但无法满足多人协作需求。


共享AI:现阶段的“团队”功能形态(如ChatGPT和Claude)。允许多成员访问相同的AI能力,共享历史记录与组织知识,但交互仍是顺序进行。与其说是AI队友,不如说是多人轮流使用的高级工具。


多人AI(目前仍处理论阶段):能动态参与多人对话,理解群组动态并为集体活动做出恰当贡献。不仅能响应直接指令,更能理解团队中的角色定位,判断什么时候该发声或沉默,并适应社交动态。不再是共享工具,而是真正的团队成员。


Figma的AI功能已显露这种范式的端倪——多名设计师与AI可同时在共享画布协作;会议助手能观察讨论并提供总结与待办事项。但这些应用仍受限于明确的“触发机制”(如按钮或事件),且缺乏对协作元层面的理解。


比较诡异的是,虽然很多AI公司明确以“AI员工”和“数字同事”为目标,但其产品底层仍是任务委派模式,而不是真正的协作设计。


从


我们还没看到AI能实质参与团队Slack频道的讨论,开头脑风暴会时AI也不会在未被直接提示时主动贡献点子,AI也不能驾驭产品开发会议中的复杂社交动态。这些能力虽不如自主编程或内容生成吸睛,却同样具有变革性。


人越多,问题越多


平心而论,构建多人模式AI体验确实比单人模式困难得多——这背后的理由很充分。


先说基础:实时协作软件本就开发困难(即便没有AI参与)。虽然现有的设计模式和框架已大幅简化流程,但如果初期没考虑到多人模式的话,后期再添加往往面临同步性、并发性及冲突解决的复杂问题。


叠加语言模型的特殊挑战:当前大语言模型基于回合制对话架构,训练数据多为“用户提问-模型回答”模式。这导致它们缺乏实时处理多人的场景经验,比如快速提供贡献、打断别人或即兴拓展观点等。


单用户交互的限制尚在探索阶段,加入更多人情况只会更加复杂。比方说多人参与时,上下文窗口的容量消耗速度会翻倍(虽然Gemini已支持百万级token,可能很快不成问题)。聊天机器人的“记忆”仍是个模糊概念,行业期待长期实现个性化记忆——但如果涉及到多人时,这会变成全新命题。


隐私问题也不容忽视,尤其语音/视频AI。当AI参与群聊时,需立即明确:同意(谁给AI授权)、数据留存(对话存储时限)以及访问控制(谁能查看记录与摘要)。


在我看来,上述技术挑战都是可以攻克的。真正的难关在于社交层面的挑战。


从


当我加入群聊时,我会不断做出微妙的评估:谁是领域专家?参与者间的权力关系如何?此刻适合插话还是继续倾听?团队现在是精力充沛乐意接受新想法呢,还是压力山大、把焦点放在执行上?


如果你要我把这些提炼成明确的规则(比如提示词),恐无能为力。这些并不是基于具体规则,而是靠数十年社交经验的积淀。现有的AI在某些领域惊艳,但缺乏对社会动态的直觉理解。早期的ChatGPT曾被比作幼稚的孩子(或是学者症候群患者),新版或许能达到大学生水平。


假设大语言模型真具备了近似人类的社交意识:能分辨是激烈讨论还是紧张冲突,知道什么时候该幽默而不是态度强硬。即便如此,我们该如何"召唤"这些AI伙伴呢?


前LLM时代的“智能”助手也没能解决这个问题——相反,你得靠经常开着麦克风让它听到“Hey Siri”等唤醒词。AI什么时候该介入仍是难题:是响应明确指令("Hey ChatGPT"),还是自主判断时机插话?前者限制了协作潜力,后者可能会造成干扰。


后面这种情况虽然理想,但却引申出一个根本问题:AI如何判断“合适时机”?工作中,我知道哪位同事擅长创意头脑风暴,哪位精通提出建设性质疑,清楚决策链与组织架构。要成为真正的"同事",AI需要理解这些背景信息。


此外,还需要适应不同的组织文化:喜欢开诚布公地辩论的工程团队可能欢迎直言不讳的事实纠错,而注重共识的设计团队或许更倾向委婉表达不同观点。


这还只是以美国团队为例。想想日本这样的高语境文化——强调间接沟通与弦外之音的情况。这些差异体现在发言节奏、对沉默的接受度、敬语使用等无数细节中,人类凭本能应对,对AI却是巨大挑战。


平台实践与论文探索


尽管如此,我依然对未来充满期待。学界与业界正涌现出一些有趣的新思路。


从

来源:Figma


行业前沿

最显著的进展并不是往AI界面里面添加更多的人类,而是将AI植入到现有的协作平台。这种借力成熟的多人互动平台的做法,巧妙地避开了诸多技术障碍。


Figma就是典型代表。其协作设计平台本来就支持多人实时编辑,往里面添加AI功能是顺理成章。当设计师在共享画布上让AI生成UI组件或插画时,其他成员可立即查看、修改或在这些元素基础上拓展——这种流动的协作体验与独立AI工具的回合制模式截然不同。


Google Workspace与Notion也在走类似的路线。在Google Docs或Notion的页面上,多人可同时调用AI书写摘要、生成内容或重写段落。AI不直接参与协作,而是作为工具供所有成员在协作环境下使用。


这些平台整合策略的共同点是:依托现有的多人环境,而非从零构建AI的多人能力。至少这是种务实的选择。


研究前沿


商业平台专注实际整合,而学术界则在攻坚真正的多人AI交互理论难题。


Kim等学者(2025)开发的OverlapBot聚焦更自然的多场景对话。这种聊天机器人支持“文字叠合”,允许用户与AI同时输入、互相打断或接话,模拟了人类群体对话中的插话与补全行为。用户研究显示,OverlapBot被认为更具吸引力且更"拟人化",交流速度与流畅度远超严格的回合制。


微软研究者提出的MUCA框架专为群聊设计,旨在解决多用户聊天机器人需应对的“3W”决策维度:说什么、何时说、对谁说。与传统聊天机器人不同,MUCA能识别“插话”时机(如推动停滞的讨论),并管理多人参与的独立对话线程。


从


来源:《Inner Thoughts》论文


Liu等人的《Inner Thoughts》论文(2025)提出:真正的对话式AI不应只是被动响应,而应当自主决定什么时候贡献有价值的内容。他们的系统赋予AI自己的“内心独白”——与显性对话并行的隐性思考链。AI会内部“思考”讨论内容,形成潜在贡献点,并通过内在动机模型判断最佳发言时机,模仿人类在群聊中暗自推理并等待插话时机的行为。


除直接参与外,研究者也在探索AI如何促进团队协作。Muller等人(2024)研究三人团队与AI助手Koala的创意脑暴。Koala被设计成人类队友角色——主动提议、评论,甚至无需提示即贡献观点。

研究表明,AI的贡献能对团队产出产生实质性影响,但这种互动关系很复杂:人类有时候会区别对待AI建议,或者更加重视,或给予额外审视。


从


来源:MUCA框架


突破双人范式


短期内,我们正在稳步提升AI的"倾听"能力。AI系统变得愈发擅长观察群体互动而不直接参与——总结讨论、识别待办事项、指出潜在冲突或被忽视的机会。


Otter.ai与Fireflies.ai等会议助手已初现端倪,但其能力可从被动转录升级为主动理解社交与信息动态。随着这些系统证明了自身价值,它们将逐步获得更主动的对话参与权。


中期可能出现更复杂的参与和协调能力。借鉴《Inner Thoughts》和MUCA等研究,AI将提升何时参与及如何表达的判断力,更擅长把握对话情绪基调,辨别何时需技术精准而非社交和谐,并调整沟通方式适应群体规范。预计会出现针对多人交互的专项训练(数据集或RLHF技术)。


长期愿景(仍需数年但渐趋清晰)指向真正理解组织语境、助力群体创意与问题解决的AI系统。它们不仅响应指令,更能主动发现机会、串联离散想法,帮助团队突破限制效能的沟通壁垒。


从


当今世界,除了最琐碎的任务外都需要协作。如果AI要成为真正的“同事”而非工具,就必须融入到协作空间之中。仅支持单人交互的AI社会整合能力天生受限,而善用群体协作的AI则潜力巨大。


但开发这些系统会迫使我们直面沟通本质、社交智能与团队协作等根本问题。因此,尽管技术挑战需攻克,最成功的多人AI未必是技术最复杂的。


最成功的多人AI将是能在贡献与观察、主动与谦让、独特算力优势与人类协作特质间找到精妙平衡的系统。


译者:boxi。


文章来自公众号“36kr

关键词: AI , AI协作 , 人工智能 , 大模型
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0