MiniMax早期员工做了个“左右划”的Proactive Agent丨début

9592点击 2026-04-07 23:32

从OpenClaw刷屏开始，人人都能拥有专属的AI“个人助理”仿佛不再是科幻电影里的未来。在这场通往新世界的拥挤赛跑中，一家聚焦海外市场的初创公司Boxy刚刚获得红杉中国种子基金投资的数百万元美元融资。

Boxy究竟是什么？

简单来说，Boxy通过在电脑后台静默运行虚拟机，能够实现合规获取用户在WhatsApp、LinkedIn、Instagram等应用中的全量数据。基于这些数据，Boxy通过建立个人数据模型（Personal Model）能在感知到用户潜藏需求时，主动推送任务建议“卡片”，并根据用户选择持续对模型迭代。

Proactive Agent是当下最火热的创业方向之一。所谓，Proactive（主动式），简单说就是提前预判、甚至完成用户还没提出的需求。OpenClaw利用30分钟一次的心跳机制模拟了这种体验，也启发了更多创业公司做真正的主动触发agent。其中最主要的一条路线是，通过屏幕截图等方式获取用户的完整上下文，以此识别用户意图，进而完成那些“还没说出口”的任务。

区别于原先要切换多次app的操作用户，通过Boxy，只需像玩交友软件一样，花0.1秒“左划”或“右划”，就能让系统在后台自动完成修改日程、回复消息等工作。

但Boxy的野心不止于此。在创始人John的构想中，它并非单纯的助理，而有着一整条完整链条：以极简交互切入用户的沟通场景，通过自建和第三方创建大量不同类型的Agent，持续对人类反馈进行强化学习，以期成为“Agent时代中最大的Personal Model生产商”。

John是一名1998年出生的连续创业者，12岁便前往美国求学，大学就读于Emory University。在AGI浪潮爆发的前夕，他曾作为第8号员工加入大模型独角兽MiniMax，经历了从零搭建AI数据管线的拓荒期。

那是在2021年底，AGI的概念甚至还没有在行业内普及。从商汤走出来的MiniMax处在寻找AI to C可能性的道路上，John 和同事们从零构建极其复杂的人机交互数据集，通过尖端的采集技术实现了毫米级的多模态数据捕捉，为后期现象级产品（如 Glow）的情感化交互和超自然语音表现提供了底层的数据方法论。

但对于John个人来说，“极度逼真的虚拟人”从来不在他真正的兴趣点上。在MiniMax待了近一年时间，AI时代日渐逼近的脚步让他决定自己必须投身于此。

离开MiniMax后，他一直尝试在新的领域实现 AI To C 的全方位落地，但始终没有看到可以说服自己的方向。这次他带着Boxy回归 AI to C，John称找到了一种真正的“Founder Lifestyle Fit”——不再是为了创业而创业，而是去打造一个自己极度渴求的、能将人类从繁杂数字劳作中彻底解放的基础设施。

MiniMax早期员工做了个“左右划”的Proactive Agent丨début

和Agent的交互只需0.1秒

elsewhere：直接从产品谈起吧。现在市场里充满了各种形态的AI助理，Boxy有什么不一样？

John：Boxy不是AI Personal Assistant、Proactive Agent、Jarvis，或者HER的OS1。我们帮每个人创造自己的Personal Model，从而能让Agent可以先真的知道“你是谁”，然后再提供相对应的Agent服务。

你可以理解为，Boxy想成为用户在Agent时代必不可缺的一个交互媒介，面向大众的Agent入口。

现在绝大多数的Agent还在强迫用户对着一个空白的对话框输入prompt，这其实会带来巨大的认知过载。普通人根本不知道怎么向AI精准描述一个模糊的需求，很多时候，去把prompt精修好的时间，用户可能已经把这个事做完了。所以，Boxy的解法是先告诉Agents你是谁，给到足够的context，然后让Agents在最合适的时间点主动做最合适的事情。

elsewhere：Boxy肯定不是第一个说要当主动助手的Agent了，你们能做到“主动”靠什么？

John：我们在用户的电脑后台静默运行一个虚拟机（VM），里面同步跑着用户的微信、LinkedIn、Instagram 等网站/软件。在获得授权后，Boxy会在虚拟机里，不打扰用户主界面的工作流的前提下，控制鼠标向上滑动、截屏，合规地获取用户全量的历史聊天记录、平台上的浏览数据等。基于收集的全量数据，Boxy能够在冷启动阶段就构建出每个用户自己的Personal Model。

elsewhere：通过获取全量数据来构建一个准确的用户画像？

John：所谓Personal Model，可以理解为用户级的长期行为模型，相比传统意义上的“用户画像”，这种模型更强调可计算的行为结构——用户在不同场景下的偏好倾向、决策边界、沟通风格、节奏模式、关系差异，以及随时间产生的趋势变化。这些行为数据随后会以结构化方式注入到Agent的retrieval、ranking、planning和generation流程中。所以，即使在Agent第一次与用户深度协作时，系统也已经具备一定程度的个体理解，而不是从零开始。

从用户角度来看，Agents会基于Personal Model给到的高价值数据，在下载Boxy授权数据的下一刻，就主动预测需求，并把解决方案以“卡片”的形式推送到你面前。

elsewhere：卡片？

John：没错。在预测到用户潜在需求后，类似交友软件Tinder，Boxy会给用户推送建议卡片，用户只需要“左划右划”就能完成决策。

比如，你正在专注赶一份报告，突然收到合作方发来的一条消息，问明天的会议能不能改到下午。因为Boxy掌握了你的通讯、邮箱、日历等数据，发现你明天下午刚好有空。此时它不会强迫你打断思路去切换APP，而是直接在屏幕边缘推送一张卡片：“已确认明下午无会，是否回复：‘没问题，那就明天下午2点线上见’？”你连通讯软件都不需要打开，只需要花0.1秒向右划，Boxy就会在后台自动帮你发送消息并同步修改日历。如果你觉得不妥，左划拒绝即可。如果你觉得回复的方向对了，但语气需要微调，或者想顺便补充一句其他信息，你还可以上划这张卡片，快速输入你的补充指令或进行修改。

elsewhere：你想切iMessage、WhatsApp、微信这样通讯软件的蛋糕吗？

John：准确地说，不是去切他们的蛋糕，或者说我们对再造一个IM（即时通讯）软件毫无兴趣。在我们的规划里，沟通其实是一个“特洛伊木马”。

现在大家的痛点不是没有软件聊天，而是信息过载，每天在大量不同的app进行多重沟通。我们选择从沟通这个最高频、最消耗能量的场景切入。当用户习惯了通过Boxy来处理沟通时，他就不再需要把时间浪费在切换app上了。

elsewhere：重新建立一套通讯沟通的用户习惯需要多久？

John：如果我收到了很多消息，且来源于不同的软件，那打开Boxy，通过快速的右滑卡片就可以直接让Agent去各个软件回复这些对话。我相信，只要试过Boxy，你就不会再想要打开其他软件、找到联系人、理解上下文、手动撰写回复并发送的欲望了。

以及在马上到来的“后APP时代”，我相信大众会越来越习惯把当前的APP作为一个Agent系统的后端来看待。因为这些操作本身就十分机械化。所以，不仅是我们在产品体验上会让用户感觉到“用了就不能没有”的一种心态。其实，整个软件发展的趋势也让我们看到了这种交互的必然性。

elsewhere：那你还是要革微信的命吧。

John：说得有点过了，微信本身还有很多小程序、支付、订阅号的生态，而且我们绝不仅仅是为了帮用户代发几条消息，这只是第一步。

在这个过程中，Boxy通过消息，顺理成章地接管了你的日程、工作甚至生活流。沟通只是一个锚点，一旦你把最高频的交互和决策留在了Boxy，它就会自然而然地成为未来你召唤所有Agent、分发所有任务的终极入口。

elsewhere：可几乎每个想做“个人助理”的软硬件都会说自己会越来越理解用户。

John：这是一件必然发生的事情，没错。但是如果需要用户和你的Agent进行大量的文本沟通，那用户体验是很差的。而且有由于是文本沟通，用户对于错误判断的容忍度是很低的，他还需要再自行打字来描述意愿，进行纠错。

所以，场景的选择很重要，如何在这个场景中，让Agent可以和人进行高频交互，从而进一步理解用户，产生黏性。

以此为起点出发，我们认为，当前划动的交互方式是很重要的。划动带来的不仅是生理快感和认知解脱，它更是最高频的RLHF（人类反馈强化学习）。每一次划动，不仅会让Agent在后台自行帮你完成了4-6个操作，每一次的接受、拒绝、编辑、延后、忽略和显式反馈，都会变成新的学习信号，持续修正Personal Model对该用户的理解。

通过这种持续在线学习机制，系统得以区分长期稳定偏好与短期情境变化，也能够识别行为趋势和异常状态。对Agent来说，这意味着它拿到的不再只是零散历史片段，而是一组经过压缩和建模后的高价值信号，从而可以在最合适的时间为用户做最合适的事情。

Personal Model + LLM=

真正可长期演化的Agent System

elsewhere：这里存在一个巨大的悖论：要做到建立每个人的Personal Model“主动预测”，用户必须交出极其核心的私人社交和工作数据。凭什么让用户放心？

John：隐私是生命线，也存在极高的技术壁垒。如果像其他产品一样，把海量的原始聊天记录全盘扔给云端大模型去处理，那隐私保护就是一句空话。

我们用了一种“端侧脱敏”架构：用户的本地设备上会运行我们在本地部署的一套脱敏管线。它的核心任务是“数据模糊化”。比如，你在聊天记录里的真实姓名、公司、密码等敏感信息，在本地就会被小模型替换成无意义的占位符（比如Person A、Company B等）。

随后，我们将这段完全脱敏的逻辑描述发给云端大模型进行策略推理。云端返回结果后，我们在本地再进行一次“还原”（Hydration），最后调用本地脚本进行任务执行。也就是说，云端大模型永远碰不到你的真实隐私，且用户可以随时查看上传的数据日志，一切透明。

elsewhere：相比LLM，你所说的Personal Model会在我们的生活中扮演什么样的角色？

John：在生成式AI普遍进入Agent化阶段之后，如何让智能体真正理解“具体的某一个用户”是核心问题。单靠通用大语言模型本身，很难在有限上下文窗口内可靠地吸收用户跨时间（数年月）以及跨平台（多数据源）的行为数据。所以，我认为，真正有价值的个体化能力，应该来自一层独立于基础模型之外、持续演化的Personal Model。

这种架构的意义并不在于再训练一个“更大的模型”，而在于给通用foundation model增加一层长期、个体化、可更新的user state。前者擅长通用推理与生成，后者负责长期记忆与用户适配。两者配合，智能体才能从“泛化能力强”走向“真正因人而异”，这也可能成为下一代AI Agent从demo走向daily driver的关键分水岭。

简单来说，大模型决定了AI的能力上限，而Personal Model决定了AI对你的有用下限。而Boxy的目标，就是成为全球最大的Personal Model生产商和托管平台。

elsewhere：能感受到你对于Personal Model是一种坚信的态度。这种相信是从哪里来的？

John：回头看，技术的发展其实一直在重复一件事情：把原本集中在中心的能力，一点点还给每一个人。

打电话，最早我们离不开电信运营商、电话交换系统。你想联系一个人，本质上是请求一个中心化网络帮你“连接”。后来上网，我们依赖互联网服务提供商、远端的数据中心。因为信息、计算、内容——都在“那一端”，不在我们手里。但现在，我们有了自己的手机，有了自己的电脑。很多原本属于“网络”的能力，被搬到了“设备”上。能力，开始从中心，流向每一个个体。

未来，随着端侧设备算力的提升，我们可以预期，每个人都将拥有足够的本地计算能力（其实大家在大量购买Mac Mini就是在屯自己的算力）。在那个未来，这些算力要做什么，是大家还没定义的，而我们认为这些算力应该去运行自己的Personal Model，然后配合云端LLM进行足够智能且理解个人数据的个性化推理。

我相信，我们正在进入一个全新的时代，一个每个人都将拥有属于自己计算资源、拥有自己模型的时代。未来的AI体系将由两类模型构成：一类是部署在云端的通用大模型，另一类是运行在个人设备上的Personal Model。两者协同工作，人类才能第一次，真正拥有属于自己的智能。

elsewhere：可直观看上去，你想做的和豆包手机想做的没什么不一样。

John：表面上看，大家都在讲“个人智能助理”的故事，但底层的实现路径和能触达的数据有本质区别。豆包手机本质上还是巨头做硬件、做OS的逻辑，只要是巨头，就必然受制于大厂之间那堵厚厚的生态高墙。后来其他大厂对豆包手机的封禁也证明了这件事。拿不到全量的跨平台context，所谓的Personal Model就是无源之水，最后只能沦为一个好用点的语音助手或者系统插件。虚拟机方案使得Boxy不需要任何大厂给我们开放API。

更重要的是信任问题。从人性的角度来讲，用户真的愿意把所有底裤级的私密社交和工作数据，毫无保留地上交给一家拥有庞大商业版图的大厂吗？这也是为什么我们花了极大代价去做“端侧脱敏”。Boxy要做的不是某个大厂生态的附庸，而是一个绝对中立、完全透明、只忠诚于你个人的“数字资产保险箱”。

elsewhere：这个“第三方生态位”上可能站满了创业公司。为什么你们能做？

John：这个赛道里的一类公司通过本地录屏来收集数据，这是有局限性的，它只能截取你“当前”正在做的屏幕片段，根本拿不到深度的历史语境。这很难真正对一个人建立起语境。

同时，也有很多创业公司想要打造的是一个能做所有事的大一统Agent。这和我们的原则是相反的，也会带来极大的不可控性和极高的出错风险。

我们推崇的是Unix philosophy，相信每一个Agent都应该各司其职做一件事情，然后把这件事情做好。用户不应该把一个模糊需求给到一个中心化的智能中枢，“期待”它能顺利执行。Boxy把具体的执行交给Agent Store里各司其职的第三方开发者。

elsewhere：类似苹果的App Store？你们会以什么方式来吸引Agent开发者？

John：某种程度上很像。开发者在做AI应用时，最头疼的永远是两件事：流量从哪来，以及怎么拿到高质量的上下文数据。Boxy通过扎根“沟通场景”稳定流量。而全量数据、理解隐性偏好，Boxy都已经通过打造Personal Model做好了。

在Agent Store上的每一个Agent都会清晰的说明自己可以看什么数据，不可以看什么数据，且所有Agent看到的数据都是模糊处理过的数据，保证用户隐私不被泄露。另一方面，Agent需要说明自己可以调用什么工具，不可以调用什么工具，例如帮忙做调研的Agent，就不应该有去某个平台发消息的能力，也避免了恶意prompt injection导致Agent胡乱操作app的情况，以及就算碰到或者极小概率的hallucination（幻觉），Agent依旧不会造成过大的影响。

elsewhere：苹果当初靠iPhone做分发渠道，那你们为什么不直接做硬件？

John：硬件当然是智能最完美的物理承载，但我对硬件的看法是：先有灵魂，再有容器。

因为它们拿不到用户的全量context，所以AI硬件依然是个“失忆症患者”。Personal Model就是那个“灵魂”，而硬件只是“容器”。我们的策略是先在用户现有的PC上，用最快的方式把这个灵魂给养出来。

elsewhere：你们自己的商业模式是怎样规划的？

John：短期来看，我们的商业模式主要基于订阅制，如何更好的服务每一个用户，让他们把Boxy作为沟通入口，是我们的核心，后续肯定会基于Agent Store的生态展开，我们会和平台上提供各类垂直服务的第三方Agent开发者进行抽成和利润分成。

但往更长远的“新世界”来看，我相信，Personal Model将成为每个人最核心的数字资产。随着个人模型的不断完善，它不仅是帮你省时间的工具，甚至能代表你去创造价值。

比如，在保证隐私脱敏的前提下，你的Agent可以代表你去参与特定消费品牌的商业调研，或者帮你自动筛选和对接商业机会。我们最终的商业想象力绝不仅仅是卖一个效率软件的订阅费，而希望成为新世界里，所有人的Agent和外部世界进行价值交换的基础设施。

文章来自于微信公众号 "elsewhere别处发生"，作者 "elsewhere别处发生"

关键词: AI新闻 , Boxy , Proactive Agent , Agent

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0