Manus 张涛:
「前几天翻出来去年 Manus 正式立项那天我们几个讨论的录音,交给 Manus 整理成了这个文件。回头看去这一年,基本上是把当时讨论的点都实现到了。算是很有价值的一次讨论了。
尤其喜欢 Manus 自己写的这句:一个旨在重新定义智能体、致⼒于成为⼈类强⼤⼼智延伸的探索之旅,由此正式启航。」

以下为会议纪要完整内容,来自「潜云思绪」。
本文基于 Manus 项目立项初期的两次核心讨论录音文字稿整理而成。与初版纪要相比,本扩展版旨在更深入、更细致地还原讨论的全貌,不仅保留了核心议题与时间脉络,更补充了大量的细节、思辨过程以及富有启发性的类比。文章力求全面展现团队人在产品哲学、技术架构、用户体验及市场策略等方面的深度碰撞,为 Manus 项目的后续发展提供一份更丰满、更具参考价值的奠基性文档。
讨论的核心议题在扩展后,可以更细致地归纳为以下几个方面:
4.1. 产品哲学:通用性与垂直优化的战略抉择
讨论的起点,是关于 Manus 核心定位的思辨。这不仅是功能层面的选择,更关乎产品的长期发展范式。
4.1.1.「百度 vs.Hao123」:两种发展范式的隐喻
Red 提出了一个深刻的类比,将两种不同的 Agent 发展路径比作「百度」与「Hao123」的模式差异。
Red:「我觉得就是这个类比好,123 加 link 跟百度做抓链接卡片,是两个完全不同的,就是有本质区别的...Chatbot 为什么它现在有瓶颈了?就是它给人感觉是非常通用,但实际上没有那么通用。」
这一思路获得了团队的普遍认同,确立了 Manus「通用性优先,逐步沉淀和优化高频场景」的核心战略。通用性是获客和探索可能性的基础,而后续的优化则是构建核心竞争力和护城河的关键。
4.1.2. 通用性的边界:专业软件与知识冲突
尽管确立了通用性优先,但其边界和挑战也被充分讨论。
范斌提出了一个现实的挑战:对于像专业视频剪辑这样的任务,一个通用的 Agent 如何与 Final Cut Pro 或 Premiere 这样的专业软件竞争?他认为,Agent 在理解和操作复杂图形界面(ComputerUse)方面,短期内难以实现质的突破。
Peak 则给出了一个更具未来感的设想:如果 Agent 的运行环境是一个完整的「带桌面环境的虚拟机」,那么它完全可以通过模拟人的键鼠操作来直接使用这些专业业软件,从而将通用性推向新的高度。
此外,Red 还指出了另一个潜在问题--知识冲突。一个无所不学的的通用 Agent,可能会在不同领域的知识上产生混淆。例如,用于数据科学的严谨知识,可能与用于市场文案的创意知识在底层逻辑上是冲突的。这暗示了未来可能需要某种形式的「领域隔离」或「知识分区」机制。
4.2. 技术架构:构建真正的「云端代理」
如何将产品哲学落地,关键在于技术架构的设计。讨论的焦点集中在如何解决当前 Agent 产品的核心痛点,构建一个真正稳定、持久且强大的执行环境。
4.2.1.「云端浏览器」与远程交互
实现 Agent 对 Web 的复杂操作,是项目的技术基石。团队探讨了「Browser in Browser」的概念,即在用户的浏览器中,运行一个来自云端的、被 Agent 完全控制的浏览器实例。
张涛(hidecloud)调研并分享了一个名为 XPRA 的开源项目。该项目能将远程应用的界面以流式(Streaming)的方式传输到前端,并且只传输发生变化的像素区域,这为实现低延迟的远程应用交互提供了可行的技术参考。
张涛(hidecloud):「…这个项目他自己都带了一个那个 H5 的一个客户端,就是直接显示他 Server 那边传输过来的东西.. 很符合我们这种需求嘛。」
4.2.2. 核心痛点:状态持久化(Persistence)
团队一致认为,当前市面上 Agent 产品(如 Devin)最大的短板在于其「一次性」的会话机制。每次任务都是一个全新的、无菌的环境,这导致了大量重复工作和糟糕的用户体验。
Peak:「Devin 的 session 的 credential 不能持久化。对,这也是咱们一定要解决的事儿。…. 这我觉得 agent 就 agency 最重要一点,这才真正代理,要不然他其实一次性的。」
Manus 必须从根本上解决这个问题,实现全面的状态持久化。讨论中明确了需要持久化的几个关键部分:
4.2.3. 用户接管(Interactive Mode)
在 Agent 遇到障碍(如复杂的验证码、两步验证登录)时,必须有一个流畅的机制让用户能够「接管」浏览器,完成操作后,再将控制权交还给 Agent。这被认为是弥补当前 AI 能力不足、确保任务能顺利完成的关键环节。
4.3. 用户界面与交互体验:在「信任」与「控制」之间寻求平衡
产品的界面设计,被认为是决定用户接受度的关键。讨论围绕着 Devin 的界面布局展开,并对其优缺点进行了深入剖析。
4.3.1. 界面的双重角色:建立信任与提供控制
Devin 的界面分为左右两栏:左侧是对话流,右侧是 Agent 的工作区(Planner,Shell,Browser)。团队发现,这个设计巧妙地服务了两类不同的用户心智:
Red:「其实我用 DEV 的时候不太看右边... 但当然他展示出右边我觉得是有意义的... 对,就是信任问题。那个很重要,就是他正儿八经在搞。」
4.3.2. 对 Devin 界面的批判与超越
尽管 Devin 的设计有其合理性,但团队也指出了其明显的不足:
基于这些批判,团队提出了 Manus 的 Ul 设计哲学:
潘潘(PanPan):「我觉得它 confuse 原因是不是因为上来它就什么都在?就如果你想象右边这个类似于就是普通用户用 Windows 的那个任务栏,一开始其实是只有 plaanner,然后它一点一点随着工作逐渐出来...」
4.4. 人机协作:Agent 作为人类心智的延伸
讨论中,团队还花时间探讨了 Agent 存在的根本价值,即它如何成为人类能力的延伸和补充。
4.4.1. 克服人类的认知局限
潘潘(PanPan)和张涛(hidecloud)认为,人类在执行复杂任务时存在诸多局限,而这正是 Agent 的优势所在:
潘潘(PanPan):「人最大的问题我觉得还有一个就是不知道自己不知道。」
张涛(hidecloud):「但是他永远都会去第一性原理全局激活。」
4.4.2.EVE Online 的启示:复杂系统与长期规划
讨论中一段关于游戏《EVE Online》的「题外话」,实际上为 Agent 的应用场景提供了一个有趣的类比。EVE 是一个拥有极其复杂的经济系统和生产链的科幻网网游,玩家需要像经营一个国家一样,进行长期的资源规划、生产调度和战略博弈。许多玩家军团甚至需要使用 Excel 表格来管理其庞大的生产体系。
这恰恰揭示了 Agent 的一个潜在的高价值应用场景:作为复杂系统的「总调度官」或「超级助理」,帮助人类管理和优化那些超越了单人认知和执行能力上限的庞大工程。
这两次深入的讨论,不仅为 Manus 项目的正式启动扫清了思想上的障碍,更形成了一系列宝贵的、可指导后续工作的核心原则。
讨论的最后,团队迅速行动,成立了项目组,共享了前期资料,并明确了在产品定义和技术架构上的分工。一个旨在重新定义智能体、致力于成为人类强大心智延伸的探索之旅,由此正式启航。
文章来自微信公众号 “ Founder Park ”
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】OpenManus 目前支持在你的电脑上完成很多任务,包括网页浏览,文件操作,写代码等。OpenManus 使用了传统的 ReAct 的模式,这样的优势是基于当前的状态进行决策,上下文和记忆方便管理,无需单独处理。需要注意,Manus 有使用 Plan 进行规划。
项目地址:https://github.com/mannaandpoem/OpenManus
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/