从OpenClaw刷屏开始,人人都能拥有专属的AI“个人助理”仿佛不再是科幻电影里的未来。在这场通往新世界的拥挤赛跑中,一家聚焦海外市场的初创公司Boxy刚刚获得红杉中国种子基金投资的数百万元美元融资。
Boxy究竟是什么?
简单来说,Boxy通过在电脑后台静默运行虚拟机,能够实现合规获取用户在WhatsApp、LinkedIn、Instagram等应用中的全量数据。基于这些数据,Boxy通过建立个人数据模型(Personal Model)能在感知到用户潜藏需求时,主动推送任务建议“卡片”,并根据用户选择持续对模型迭代。
Proactive Agent是当下最火热的创业方向之一。所谓,Proactive(主动式),简单说就是提前预判、甚至完成用户还没提出的需求。OpenClaw利用30分钟一次的心跳机制模拟了这种体验,也启发了更多创业公司做真正的主动触发agent。其中最主要的一条路线是,通过屏幕截图等方式获取用户的完整上下文,以此识别用户意图,进而完成那些“还没说出口”的任务。
区别于原先要切换多次app的操作用户,通过Boxy,只需像玩交友软件一样,花0.1秒“左划”或“右划”,就能让系统在后台自动完成修改日程、回复消息等工作。
但Boxy的野心不止于此。在创始人John的构想中,它并非单纯的助理,而有着一整条完整链条:以极简交互切入用户的沟通场景,通过自建和第三方创建大量不同类型的Agent,持续对人类反馈进行强化学习,以期成为“Agent时代中最大的Personal Model生产商”。
John是一名1998年出生的连续创业者,12岁便前往美国求学,大学就读于Emory University。在AGI浪潮爆发的前夕,他曾作为第8号员工加入大模型独角兽MiniMax,经历了从零搭建AI数据管线的拓荒期。
那是在2021年底,AGI的概念甚至还没有在行业内普及。从商汤走出来的MiniMax处在寻找AI to C可能性的道路上,John 和同事们从零构建极其复杂的人机交互数据集,通过尖端的采集技术实现了毫米级的多模态数据捕捉,为后期现象级产品(如 Glow)的情感化交互和超自然语音表现提供了底层的数据方法论。
但对于John个人来说,“极度逼真的虚拟人”从来不在他真正的兴趣点上。在MiniMax待了近一年时间,AI时代日渐逼近的脚步让他决定自己必须投身于此。
离开MiniMax后,他一直尝试在新的领域实现 AI To C 的全方位落地,但始终没有看到可以说服自己的方向。这次他带着Boxy回归 AI to C,John称找到了一种真正的“Founder Lifestyle Fit”——不再是为了创业而创业,而是去打造一个自己极度渴求的、能将人类从繁杂数字劳作中彻底解放的基础设施。

elsewhere:直接从产品谈起吧。现在市场里充满了各种形态的AI助理,Boxy有什么不一样?
John:Boxy不是AI Personal Assistant、Proactive Agent、Jarvis,或者HER的OS1。我们帮每个人创造自己的Personal Model,从而能让Agent可以先真的知道“你是谁”,然后再提供相对应的Agent服务。
你可以理解为,Boxy想成为用户在Agent时代必不可缺的一个交互媒介,面向大众的Agent入口。
现在绝大多数的Agent还在强迫用户对着一个空白的对话框输入prompt,这其实会带来巨大的认知过载。普通人根本不知道怎么向AI精准描述一个模糊的需求,很多时候,去把prompt精修好的时间,用户可能已经把这个事做完了。所以,Boxy的解法是先告诉Agents你是谁,给到足够的context,然后让Agents在最合适的时间点主动做最合适的事情。
elsewhere:Boxy肯定不是第一个说要当主动助手的Agent了,你们能做到“主动”靠什么?
John:我们在用户的电脑后台静默运行一个虚拟机(VM),里面同步跑着用户的微信、LinkedIn、Instagram 等网站/软件。在获得授权后,Boxy会在虚拟机里,不打扰用户主界面的工作流的前提下,控制鼠标向上滑动、截屏,合规地获取用户全量的历史聊天记录、平台上的浏览数据等。基于收集的全量数据,Boxy能够在冷启动阶段就构建出每个用户自己的Personal Model。
elsewhere:通过获取全量数据来构建一个准确的用户画像?
John:所谓Personal Model,可以理解为用户级的长期行为模型,相比传统意义上的“用户画像”,这种模型更强调可计算的行为结构——用户在不同场景下的偏好倾向、决策边界、沟通风格、节奏模式、关系差异,以及随时间产生的趋势变化。这些行为数据随后会以结构化方式注入到Agent的retrieval、ranking、planning和generation流程中。所以,即使在Agent第一次与用户深度协作时,系统也已经具备一定程度的个体理解,而不是从零开始。
从用户角度来看,Agents会基于Personal Model给到的高价值数据,在下载Boxy授权数据的下一刻,就主动预测需求,并把解决方案以“卡片”的形式推送到你面前。
elsewhere:卡片?
John:没错。在预测到用户潜在需求后,类似交友软件Tinder,Boxy会给用户推送建议卡片,用户只需要“左划右划”就能完成决策。
比如,你正在专注赶一份报告,突然收到合作方发来的一条消息,问明天的会议能不能改到下午。因为Boxy掌握了你的通讯、邮箱、日历等数据,发现你明天下午刚好有空。此时它不会强迫你打断思路去切换APP,而是直接在屏幕边缘推送一张卡片:“已确认明下午无会,是否回复:‘没问题,那就明天下午2点线上见’?”你连通讯软件都不需要打开,只需要花0.1秒向右划,Boxy就会在后台自动帮你发送消息并同步修改日历。如果你觉得不妥,左划拒绝即可。如果你觉得回复的方向对了,但语气需要微调,或者想顺便补充一句其他信息,你还可以上划这张卡片,快速输入你的补充指令或进行修改。
elsewhere:你想切iMessage、WhatsApp、微信这样通讯软件的蛋糕吗?
John:准确地说,不是去切他们的蛋糕,或者说我们对再造一个IM(即时通讯)软件毫无兴趣。在我们的规划里,沟通其实是一个“特洛伊木马”。
现在大家的痛点不是没有软件聊天,而是信息过载,每天在大量不同的app进行多重沟通。我们选择从沟通这个最高频、最消耗能量的场景切入。当用户习惯了通过Boxy来处理沟通时,他就不再需要把时间浪费在切换app上了。
elsewhere:重新建立一套通讯沟通的用户习惯需要多久?
John:如果我收到了很多消息,且来源于不同的软件,那打开Boxy,通过快速的右滑卡片就可以直接让Agent去各个软件回复这些对话。我相信,只要试过Boxy,你就不会再想要打开其他软件、找到联系人、理解上下文、手动撰写回复并发送的欲望了。
以及在马上到来的“后APP时代”,我相信大众会越来越习惯把当前的APP作为一个Agent系统的后端来看待。因为这些操作本身就十分机械化。所以,不仅是我们在产品体验上会让用户感觉到“用了就不能没有”的一种心态。其实,整个软件发展的趋势也让我们看到了这种交互的必然性。
elsewhere:那你还是要革微信的命吧。
John:说得有点过了,微信本身还有很多小程序、支付、订阅号的生态,而且我们绝不仅仅是为了帮用户代发几条消息,这只是第一步。
在这个过程中,Boxy通过消息,顺理成章地接管了你的日程、工作甚至生活流。沟通只是一个锚点,一旦你把最高频的交互和决策留在了Boxy,它就会自然而然地成为未来你召唤所有Agent、分发所有任务的终极入口。
elsewhere:可几乎每个想做“个人助理”的软硬件都会说自己会越来越理解用户。
John:这是一件必然发生的事情,没错。但是如果需要用户和你的Agent进行大量的文本沟通,那用户体验是很差的。而且有由于是文本沟通,用户对于错误判断的容忍度是很低的,他还需要再自行打字来描述意愿,进行纠错。
所以,场景的选择很重要,如何在这个场景中,让Agent可以和人进行高频交互,从而进一步理解用户,产生黏性。
以此为起点出发,我们认为,当前划动的交互方式是很重要的。划动带来的不仅是生理快感和认知解脱,它更是最高频的RLHF(人类反馈强化学习)。每一次划动,不仅会让Agent在后台自行帮你完成了4-6个操作,每一次的接受、拒绝、编辑、延后、忽略和显式反馈,都会变成新的学习信号,持续修正Personal Model对该用户的理解。
通过这种持续在线学习机制,系统得以区分长期稳定偏好与短期情境变化,也能够识别行为趋势和异常状态。对Agent来说,这意味着它拿到的不再只是零散历史片段,而是一组经过压缩和建模后的高价值信号,从而可以在最合适的时间为用户做最合适的事情。
elsewhere:这里存在一个巨大的悖论:要做到建立每个人的Personal Model“主动预测”,用户必须交出极其核心的私人社交和工作数据。凭什么让用户放心?
John:隐私是生命线,也存在极高的技术壁垒。如果像其他产品一样,把海量的原始聊天记录全盘扔给云端大模型去处理,那隐私保护就是一句空话。
我们用了一种“端侧脱敏”架构:用户的本地设备上会运行我们在本地部署的一套脱敏管线。它的核心任务是“数据模糊化”。比如,你在聊天记录里的真实姓名、公司、密码等敏感信息,在本地就会被小模型替换成无意义的占位符(比如Person A、Company B等)。
随后,我们将这段完全脱敏的逻辑描述发给云端大模型进行策略推理。云端返回结果后,我们在本地再进行一次“还原”(Hydration),最后调用本地脚本进行任务执行。也就是说,云端大模型永远碰不到你的真实隐私,且用户可以随时查看上传的数据日志,一切透明。
elsewhere:相比LLM,你所说的Personal Model会在我们的生活中扮演什么样的角色?
John:在生成式AI普遍进入Agent化阶段之后,如何让智能体真正理解“具体的某一个用户”是核心问题。单靠通用大语言模型本身,很难在有限上下文窗口内可靠地吸收用户跨时间(数年月)以及跨平台(多数据源)的行为数据。所以,我认为,真正有价值的个体化能力,应该来自一层独立于基础模型之外、持续演化的Personal Model。
这种架构的意义并不在于再训练一个“更大的模型”,而在于给通用foundation model增加一层长期、个体化、可更新的user state。前者擅长通用推理与生成,后者负责长期记忆与用户适配。两者配合,智能体才能从“泛化能力强”走向“真正因人而异”,这也可能成为下一代AI Agent从demo走向daily driver的关键分水岭。
简单来说,大模型决定了AI的能力上限,而Personal Model决定了AI对你的有用下限。而Boxy的目标,就是成为全球最大的Personal Model生产商和托管平台。
elsewhere:能感受到你对于Personal Model是一种坚信的态度。这种相信是从哪里来的?
John:回头看,技术的发展其实一直在重复一件事情:把原本集中在中心的能力,一点点还给每一个人。
打电话,最早我们离不开电信运营商、电话交换系统。你想联系一个人,本质上是请求一个中心化网络帮你“连接”。后来上网,我们依赖互联网服务提供商、远端的数据中心。因为信息、计算、内容——都在“那一端”,不在我们手里。但现在,我们有了自己的手机,有了自己的电脑。很多原本属于“网络”的能力,被搬到了“设备”上。能力,开始从中心,流向每一个个体。
未来,随着端侧设备算力的提升,我们可以预期,每个人都将拥有足够的本地计算能力(其实大家在大量购买Mac Mini就是在屯自己的算力)。在那个未来,这些算力要做什么,是大家还没定义的,而我们认为这些算力应该去运行自己的Personal Model,然后配合云端LLM进行足够智能且理解个人数据的个性化推理。
我相信,我们正在进入一个全新的时代,一个每个人都将拥有属于自己计算资源、拥有自己模型的时代。未来的AI体系将由两类模型构成:一类是部署在云端的通用大模型,另一类是运行在个人设备上的Personal Model。两者协同工作,人类才能第一次,真正拥有属于自己的智能。
elsewhere:可直观看上去,你想做的和豆包手机想做的没什么不一样。
John:表面上看,大家都在讲“个人智能助理”的故事,但底层的实现路径和能触达的数据有本质区别。豆包手机本质上还是巨头做硬件、做OS的逻辑,只要是巨头,就必然受制于大厂之间那堵厚厚的生态高墙。后来其他大厂对豆包手机的封禁也证明了这件事。拿不到全量的跨平台context,所谓的Personal Model就是无源之水,最后只能沦为一个好用点的语音助手或者系统插件。虚拟机方案使得Boxy不需要任何大厂给我们开放API。
更重要的是信任问题。从人性的角度来讲,用户真的愿意把所有底裤级的私密社交和工作数据,毫无保留地上交给一家拥有庞大商业版图的大厂吗?这也是为什么我们花了极大代价去做“端侧脱敏”。Boxy要做的不是某个大厂生态的附庸,而是一个绝对中立、完全透明、只忠诚于你个人的“数字资产保险箱”。
elsewhere:这个“第三方生态位”上可能站满了创业公司。为什么你们能做?
John:这个赛道里的一类公司通过本地录屏来收集数据,这是有局限性的,它只能截取你“当前”正在做的屏幕片段,根本拿不到深度的历史语境。这很难真正对一个人建立起语境。
同时,也有很多创业公司想要打造的是一个能做所有事的大一统Agent。这和我们的原则是相反的,也会带来极大的不可控性和极高的出错风险。
我们推崇的是Unix philosophy,相信每一个Agent都应该各司其职做一件事情,然后把这件事情做好。用户不应该把一个模糊需求给到一个中心化的智能中枢,“期待”它能顺利执行。Boxy把具体的执行交给Agent Store里各司其职的第三方开发者。
elsewhere:类似苹果的App Store?你们会以什么方式来吸引Agent开发者?
John:某种程度上很像。开发者在做AI应用时,最头疼的永远是两件事:流量从哪来,以及怎么拿到高质量的上下文数据。Boxy通过扎根“沟通场景”稳定流量。而全量数据、理解隐性偏好,Boxy都已经通过打造Personal Model做好了。
在Agent Store上的每一个Agent都会清晰的说明自己可以看什么数据,不可以看什么数据,且所有Agent看到的数据都是模糊处理过的数据,保证用户隐私不被泄露。另一方面,Agent需要说明自己可以调用什么工具,不可以调用什么工具,例如帮忙做调研的Agent,就不应该有去某个平台发消息的能力,也避免了恶意prompt injection导致Agent胡乱操作app的情况,以及就算碰到或者极小概率的hallucination(幻觉),Agent依旧不会造成过大的影响。
elsewhere:苹果当初靠iPhone做分发渠道,那你们为什么不直接做硬件?
John:硬件当然是智能最完美的物理承载,但我对硬件的看法是:先有灵魂,再有容器。
因为它们拿不到用户的全量context,所以AI硬件依然是个“失忆症患者”。Personal Model就是那个“灵魂”,而硬件只是“容器”。我们的策略是先在用户现有的PC上,用最快的方式把这个灵魂给养出来。
elsewhere:你们自己的商业模式是怎样规划的?
John:短期来看,我们的商业模式主要基于订阅制,如何更好的服务每一个用户,让他们把Boxy作为沟通入口,是我们的核心,后续肯定会基于Agent Store的生态展开,我们会和平台上提供各类垂直服务的第三方Agent开发者进行抽成和利润分成。
但往更长远的“新世界”来看,我相信,Personal Model将成为每个人最核心的数字资产。随着个人模型的不断完善,它不仅是帮你省时间的工具,甚至能代表你去创造价值。
比如,在保证隐私脱敏的前提下,你的Agent可以代表你去参与特定消费品牌的商业调研,或者帮你自动筛选和对接商业机会。我们最终的商业想象力绝不仅仅是卖一个效率软件的订阅费,而希望成为新世界里,所有人的Agent和外部世界进行价值交换的基础设施。
文章来自于微信公众号 "elsewhere别处发生",作者 "elsewhere别处发生"
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0