你有没有想过,为什么 2025 年了,我们还在用 40 年前的方式管理文件?点开 Finder 或者文件资源管理器,看到的还是那些嵌套的文件夹,还在靠记忆去想"那个文件我当时到底命名成什么了"。更糟糕的是,你明明知道那个文档就在电脑里某个地方,却要花 15 分钟甚至更长时间去找它。这不是个别人的问题,数据显示,知识工作者平均要浪费 19% 的工作时间来寻找信息。想想看,如果你一周工作 40 小时,那就意味着每周有将近 8 小时在做无意义的搜索工作。这是一个被我们习以为常却极其荒谬的现状。
就在上周,一家名为 Poly 的 YC 孵化创业公司宣布完成了 800 万美元的种子轮融资,由 Felicis 领投,Bloomberg Beta、NextView、Figma Ventures、AI Grant、Wing Ventures 和 MVP Ventures 参与跟投。这本身并不特别,但让我深感震撼的是他们想要解决的问题:彻底重新发明文件系统本身。Poly 的创始人 Abhay Agarwal 说了一句让我印象深刻的话:"在 AI 优先的世界里,文件系统本身必须进化。"我认为这句话抓住了当下最被忽视却最关键的技术变革机会之一。我们正处在数据大爆炸的时代,每天生成的文件数量呈指数级增长,但管理这些文件的工具却还停留在 1984 年 Macintosh 首次推出 Finder 时的逻辑。这种脱节正在变得越来越荒谬,而 Poly 试图从根本上解决这个问题。
从 3D 资产生成到文件管理的戏剧性转变
Poly 的故事本身就很有意思,因为它经历了一次彻底的产品转型。2022 年,创始人 Abhay Agarwal 和 Sam Young 创立 Poly 时,他们的愿景完全不同:通过 AI 提示词生成 3D 资产。在 2022 年,这看起来是个合理的赌注,毕竟那时候生成式 AI 刚刚开始展现其潜力。但随后发生的事情出乎所有人意料。生成式 AI 浪潮的冲击力远超预期,竞争对手们纷纷获得巨额融资,整个市场迅速爆发。Poly 团队意识到,在这个已经变得极其拥挤的市场中取胜几乎不可能。

这时候,团队做了一个比坚持原路线更困难的决定:彻底转型。Agarwal 回忆说:"我们采访了用户,问他们在工作流程中遇到的哪些痛点可以通过 AI 解决。结果发现,用户的一个巨大未满足需求是整理他们的文件系统。"这次对话直接导致了 2023 年原产品的关闭,随后是长达两年的隐身模式重建,以及对 Poly 应该是什么的彻底重新想象。值得一提的是,Sam Young 后来离开了公司,而 Agarwal(曾在微软从事视觉 AI 辅助技术工作)现在独自领导着这个新愿景。
我特别欣赏这种勇气。很多创业公司在遇到市场挤压时,会选择硬着头皮继续,投入更多资源去竞争。但 Poly 团队选择了倾听用户,发现了一个更根本、更有价值的问题。这种转型不是简单的功能调整,而是从生成内容转向管理内容,从创造新东西转向更好地理解已有的东西。从某种意义上说,这反映了整个 AI 行业正在经历的成熟过程:从炫技式的生成能力,转向解决实际工作流程中的真实痛点。
Poly 到底做了什么
Poly 的核心功能听起来简单,但实现起来却极其复杂。你可以上传文件,然后用日常英语问它问题。比如"第四季度的预算是多少?""总结一下这个视频。""找出纽约会议的照片。"AI 能够理解跨格式的上下文,并返回精确的答案,包括时间码和页码的引用。这听起来可能不太起眼,但想想你上次试图在一堆文件中找某个具体信息的经历,你就会明白这有多重要。

与那些连接多个服务的联合搜索工具不同,Poly 邀请你将文件整合到它的云端。文件从你的电脑同步,但它们也保留在本地。Poly 在上面添加了一个智能层,包括 AI 驱动的搜索、自动组织、标签、摘要,甚至内容生成。你可以粘贴一个 YouTube 链接并立即获得摘要。给文件打标签,让系统自动组织它们。在共享驱动器上与团队成员协作,大家都可以查询同一个内容库。
Agarwal 将其视为 Google NotebookLM 的升级版,但具有更好的文件组织和检索功能。我认为这个类比很有意思,因为它揭示了 Poly 的定位。NotebookLM 是一个很棒的工具,可以让你上传文件并提出问题,但它更像是一个研究助手,而不是一个文件管理系统。Poly 则试图成为你日常使用的主要文件浏览器,一个可以完全替代 Finder 或文件资源管理器的工具。当然,Poly 目前还没有实时网络搜索或某些竞争对手提供的视频生成功能,但我觉得这恰恰显示了他们的专注:先把文件管理这件事做到极致。
Poly 的竞争优势在于一个名为 Polyembed-v1 的专有嵌入模型。它经过训练,可以理解各种内容类型,包括文本、PDF、演示文稿、电子表格、音频、视频、代码和 URL。公司声称,这个嵌入模型不仅在文档检索方面表现优异,而且在广泛的搜索查询和混合文本与媒体的多模态请求方面也优于同类模型。这才是真正的差异化所在。在这个领域,搜索质量而非存储容量将决定谁是赢家。Dropbox 和 Google Drive 都有 AI 搜索工具,但 Poly 的主张是它的搜索实际上效果更好。至少根据早期测试者的反馈,他们在自己的试验中发现 Poly 的表现优于 Google Drive 的搜索。
为什么文件系统需要重新发明
我一直在思考一个问题:为什么文件系统在过去 40 年里几乎没有本质性的变化?从 1984 年第一台 Macintosh 推出 Finder,到现在的 macOS 和 Windows,基本逻辑都是一样的:文件夹层级结构,通过文件名搜索,手动组织和分类。这种模式在文件数量有限的时代是有效的,但在今天已经完全不适用了。

我们正在经历一场数据爆炸。AI 正在加速数据创建的速度,驱动它沿着 J 型曲线复合增长。简单来说,我们正在经历一场数据大爆炸,随之而来的是文件大爆炸。我自己的电脑上就有数千个文件,从工作文档到个人照片,从下载的 PDF 到录音文件。我相信大多数知识工作者的情况都差不多,甚至更糟。但我们用来管理这些文件的工具,基本上还是 40 年前的设计。
这就像是用马车时代的道路系统来应对现代汽车交通一样荒谬。文件名搜索只能找到标题中包含特定词语的文件,但如果你记不清文件名呢?如果你想找的内容在文件内部呢?如果你想找的是一张照片,但你只记得照片里有一只狗,却不记得文件名呢?传统文件系统在这些情况下完全无能为力。
Poly 的创始人 Agarwal 在推特上说得很好:"当你搜索'狗'时,它应该向你展示内容中有狗的文件,而不仅仅是文件名中有'狗'的文件!"这听起来像是一个显而易见的需求,但传统文件系统做不到这一点。Poly 可以。它理解文件的内容,而不仅仅是元数据。这是一个根本性的转变,从基于元数据的组织转向基于内容理解的组织。
更进一步说,Poly 不仅仅是理解你的文件,它还可以帮你对文件采取行动。当你想编辑、转换、总结或组织一个文件时,你的浏览器应该能做到这些。这种主动式的文件管理,而不是被动式的文件存储,是 Poly 与传统文件系统的另一个关键区别。
Poly 如何与巨头竞争
Poly 正在直接与 Dropbox 和 Google Drive 竞争,这两家公司都已经添加了 AI 搜索功能。但 Poly 的赌注不同。那些公司将 AI 搜索视为现有存储产品的功能附加。Poly 则将其视为基础。整个产品都是围绕检索和理解而设计的,而不仅仅是同步和共享。
我认为这种差异至关重要。当你从存储优先的角度设计产品时,AI 搜索只是众多功能之一。但当你从 AI 理解优先的角度设计产品时,整个架构都会不同。Poly 从一开始就被设计为一个智能系统,存储只是达到目的的手段,而不是目的本身。这就像是智能手机与传统手机的区别:传统手机上添加一些应用程序,与从头设计一个以应用为中心的设备,是完全不同的两个概念。

从定价策略上看,Poly 也展现出了野心。他们在发布时为用户提供 100GB 的免费存储空间,这远远超过其他存储服务的免费层级。Google Drive 免费提供 15GB,Dropbox 只有 2GB。Poly 的 100GB 是一个大胆的举动,表明他们真的希望用户将文件迁移过来。如果你每月支付 10 美元,可以获得 2TB 的存储空间。虽然工具目前没有直接的照片同步功能,但如果未来公司围绕这一点构建功能,Poly 可能成为 Google Photos 的一个不错的替代品。
公司的目标用户是知识工作者和 AI 原生创作者、研究人员、分析客户通话的服务主管、组织参考材料的创意团队、挖掘档案的分析师。那些用洞察而非兆字节来衡量成功的人。从早期测试者的使用情况来看,他们确实将 Poly 用作项目的工作存储。这表明 Poly 找到了一个真实的使用场景,而不仅仅是作为另一个云存储备份方案。

更有趣的是,Poly 已经提供了一个模型上下文协议(MCP)服务器,这样你就可以在 ChatGPT 或 Cursor 等工具中使用 Poly。这种开放性和互操作性是明智的,因为它让 Poly 可以融入现有的工作流程,而不是要求用户完全改变他们的工作方式。虽然 Poly 目前还没有与其他工具的直接集成来同步文件,但 Agarwal 认为,由于应用支持虚拟文件引用,它可以从不同服务导入文件。
技术优势背后的深层逻辑
让我深入谈谈 Polyembed-v1 这个嵌入模型,因为我认为它是 Poly 能否成功的关键。嵌入模型听起来很技术化,但它的作用本质上是将不同类型的内容转化为计算机可以理解和比较的数字表示。想象一下,你有一段文字、一张图片和一段视频,传统的文件系统会将它们视为完全不同的东西。但一个好的嵌入模型可以理解它们之间的语义关系,知道它们是否在讨论同一个主题。
Poly 声称他们的嵌入模型在文档检索、广泛搜索查询和多模态请求方面都优于同类模型。这意味着什么?举个例子,如果你搜索"上个月的产品发布会",Poly 不仅能找到文件名中包含这些词的文档,还能找到那个时间段拍摄的照片、记录的音频和相关的视频,即使这些文件的名称完全不相关。这种跨格式的理解能力,正是传统文件系统无法实现的。
更重要的是引用的准确性。当 Poly 回答你的问题时,它会给出精确的引用,包括页码和时间码。这对于知识工作者来说至关重要,因为我们不仅需要答案,还需要知道答案来自哪里,以便核实和深入了解。这种可追溯性是 AI 系统可信度的关键,也是 Poly 与那些只给你一个模糊答案的工具的区别。
从架构角度看,Poly 选择了一条有趣的路径:文件同步到云端,但也保留在本地。这种混合模式结合了两个世界的优势。本地存储意味着你的文件始终可访问,即使没有网络连接。云端同步则使得 AI 处理和跨设备访问成为可能。这比纯云端方案更安全,也比纯本地方案更智能。
产品路线图透露的野心
Poly 在发布时提供了网页版和 Mac 应用,Windows 版本即将推出。但他们的产品路线图显示出更大的野心。计划中的功能包括网络搜索集成、风格化报告生成、文本和 Markdown 编辑器、自定义元数据、Google Docs 链接、可以分析电子表格的 AI agent,以及在共享驱动器之外直接分享文件和文件夹的功能。
我特别关注几个方向。网络搜索集成意味着 Poly 不仅能搜索你的本地文件,还能将结果与网络信息结合。这将使它成为一个更全面的知识管理工具。风格化报告生成则表明 Poly 不仅仅是检索信息,还要帮助你创建新内容。这与 Agarwal 说的"从你的生活中获得无限上下文的 LLM"的愿景一致。
AI agent 能够分析电子表格这个功能也很有意思。电子表格是商业世界中最普遍的数据格式之一,但大多数人只使用其最基本的功能。如果 Poly 的 AI 可以帮助你理解复杂的电子表格、发现数据中的模式、甚至执行分析,那将极大地提升其价值。这不仅仅是文件管理,而是数据智能。

文本和 Markdown 编辑器的加入也很重要,因为这表明 Poly 想要成为一个完整的工作空间,而不仅仅是一个文件浏览器。你不需要在不同的应用之间跳转,可以直接在 Poly 中查看、搜索、编辑和创建内容。这种整合的体验可能会显著改善工作流程。
投资者为什么看好 Poly
Bloomberg Beta 的合伙人 James Cham 说:"Abhay 的团队创造的是一种 AI 原生的'思考工具'。他们不仅是技术专家,还将复杂性提炼成普遍而人性化的东西。我们都迫切需要文件浏览器回归。"这段话很有洞察力,因为它抓住了 Poly 的本质:不仅仅是技术创新,而是将技术转化为可用性。
NextView Ventures 的合伙人 David Beisel 则表示:"Poly 正在重新定义人们如何与自己的信息建立联系。Poly 不是将知识埋在文件夹中,而是展现上下文和创造力——将日常文件转变为个人智能层,帮助人们更快地工作和思考。"这反映了投资者对 Poly 的另一个关键看法:它不仅仅是工具,而是认知增强。

从投资阵容来看,Poly 获得了一群专注于企业软件和 AI 的顶级投资者的支持。Felicis 领投,Bloomberg Beta、NextView、Figma Ventures 等参与,这些都是在 SaaS 和开发者工具领域有深厚经验的投资机构。这种投资者组合通常意味着公司不仅有资金,还有战略指导和行业网络。
NextView 在其投资公告中提到,他们的核心投资主题关注"日常经济"——通过 AI 等突破性技术实现的日常生活广泛类别的数字化重新设计。他们之前支持过 Sunrise(被微软收购,重新发明了日历),The Browser Company(最近被 Atlassian 收购,用 Arc 和 Dia 重新思考了网页浏览体验),现在还有 Beside(重新定义商业电话线)。Poly 正好符合这个主题:重新设计一个被忽视但普遍存在的工具。
我对 Poly 的思考和担忧
Poly 的愿景令人兴奋,但我也看到一些挑战。首先是用户迁移的问题。大多数人已经在使用 Google Drive、Dropbox 或 iCloud,他们的文件已经在那里,工作流程已经建立。说服用户将文件迁移到一个新平台并不容易,即使这个平台更好。Poly 的 100GB 免费存储是一个好的开始,但可能还需要更多激励。
其次是与现有工具的集成。虽然 Poly 提供了 MCP 服务器,可以在 ChatGPT 和 Cursor 中使用,但它还没有与 Slack、Notion、Google Workspace 等主流工具的原生集成。对于已经深度嵌入这些生态系统的团队来说,切换到 Poly 可能意味着放弃一些现有的工作流程。当然,Agarwal 提到未来可以通过虚拟文件引用从不同服务导入文件,这可能会缓解这个问题。
第三是隐私和安全问题。虽然文件保留在本地,但也同步到 Poly 的云端进行 AI 处理。对于处理敏感信息的企业来说,这可能是一个顾虑。Poly 需要建立强大的安全基础设施和清晰的隐私政策,才能赢得企业客户的信任。这也是为什么他们需要这笔 800 万美元的融资——构建企业级的安全和合规性需要大量投资。
最后是与 AI 巨头的竞争。Google、Microsoft 和 Dropbox 都有庞大的资源和现有的用户基础,他们都在为自己的产品添加 AI 功能。Poly 作为一家初创公司,需要保持技术和产品体验上的领先,这需要持续的创新和快速的迭代。好消息是,大公司通常行动缓慢,而且它们的 AI 功能往往是在现有产品上的附加,而不是从头设计的。这给了 Poly 一个窗口期。
但我仍然对 Poly 充满信心,原因有几个。一是团队的执行力。他们已经证明了自己能够在必要时做出艰难决定(完全转型产品),并且能够在隐身模式下坚持两年来构建正确的产品。二是市场时机。随着 AI 能力的提升和数据量的爆炸性增长,对智能文件管理的需求从未如此迫切。三是产品理念的正确性。从基础上重新思考文件系统,而不是在旧系统上修修补补,这是正确的方向。
文件系统的未来
我相信 Poly 代表了文件管理的未来方向。在 AI 时代,文件不应该只是静态的存储对象,而应该是可查询、可理解、可操作的智能资产。你的文件讲述了你生活的故事,但当你需要特定的一个时,你通常甚至找不到它。为什么你的文件浏览器不能帮你找到它,或者当你有问题时交叉引用它?
Agarwal 说:"提示可以给 LLM 一百万个 token 的上下文。通过 Poly,你可以给它下一个万亿。"这个比喻很有力。当前的 AI 助手受限于它们的上下文窗口,只能处理有限的信息。但如果你的整个文件系统都成为 AI 的上下文,那么它就真正成为了你的智能助手,了解你工作和生活的方方面面。
我想象这样一个场景:你正在准备一个关于市场趋势的演示。你只需要告诉 Poly:"帮我找出过去一年中所有关于市场分析的文件,总结关键趋势,创建一个包含相关图表的演示文稿,并找出我们团队上个季度讨论这个话题的会议录音。"Poly 理解你的意图,在所有文件中搜索相关内容,提取洞察,甚至帮你生成初稿。这不是科幻,这是 Poly 正在构建的能力。
从更宏观的角度看,Poly 是整个计算范式转变的一部分。我们正在从"应用程序中心"转向"数据中心"。过去,我们使用不同的应用程序来完成不同的任务,数据被困在这些应用程序的孤岛中。但在 AI 时代,重点应该是数据本身,AI 成为操作数据的通用界面。Poly 正是这种转变的体现:它不是另一个应用程序,而是一个智能层,让你能够以前所未有的方式访问和操作你的所有数据。
当然,Poly 的成功还有待观察。但我认为,无论 Poly 本身是否成为主导者,它代表的方向是正确的。文件系统必须进化,必须变得智能,必须从被动的存储容器转变为主动的智能助手。40 年没有变化的东西,终于到了改变的时候了。
文章来自微信公众号 “ 深思圈 ”
【开源免费】ai-renamer是一个用AI帮你做文件夹或者图片命名的项目。该项目会根据文件夹或者图片内容来为文件进行重新命名,让你的文件管理更加便利。
项目地址:https://github.com/ozgrozer/ai-renamer
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0