过去几年,AI 行业几乎把所有注意力都投向了“会不会想”:更强的推理、更大的模型、更快的生成。但在真实世界里,很多问题并不是想不想得出来,而是你到底记不记得发生过什么——尤其是视频。现实世界绝大多数信息并不以文本存在,而是被摄像头持续记录下来:人在哪里、做了什么、和谁互动、在什么场景下发生。可直到今天,行业对视频的处理方式仍然非常原始——切片、打标签、生成几句 caption,能用,但很难长期依赖,更谈不上成为真正的“记忆”。
Memories.ai 选择了一个明显更难、也更少人走的方向:不把视频当内容,而是当长期记忆本身;不先对齐语言,而是先理解世界。它试图解决的不是“如何描述一段视频”,而是“如何让机器真正记住它”。这个判断,来自创始人 Shawn 在 Meta Reality Labs 的一线经历——他亲眼见过下一代设备如何全天候感知世界,也清楚地意识到:当 Agent 开始替人做事、当硬件开始拥有“眼睛”,真正的瓶颈不在 intelligence,而在 memory。
LVMM(Large Visual Memory Model)正是在这个背景下诞生的。它不是一个更会说话的多模态模型,而是一套为机器构建视觉长期记忆的底层系统:把视频转成 AI 可直接消费的结构化表示,并且可以被高效检索、持续回溯、长期保存。在所有人都忙着教 AI 如何思考的时候,Memories.ai 在做另一件事:先让它记住这个世界。

ZP:请您简要介绍一下自己的成长经历和专业背景,包括您在英国奖学金读书、在剑桥大学完成本科/硕士/博士的学习,以及在Meta Reality Labs从事多模态AI研究的经历,这些经历如何塑造了您今天对AI视觉理解与记忆的思考?
Shawn:我出生在苏州,在苏州中学完成初中学业。之后获得了全额奖学金,前往德威国际学校(Dulwich College London)就读伦敦本校。后来也获得了剑桥大学三一学院计算机工程专业的录取及奖学金资格。在三一学院的入学考试中,我获得了第一名,因此自动获得了学院提供的全额奖学金。同时我也申请并获得了另一项本科生全额奖学金——怡和奖学金(Jardine Scholarship)。怡和集团是香港大型跨国集团,会每年给牛剑十几个本科生提供全奖,不仅依据成绩评定,也非常看重个人背景、能力及综合潜力。最终我选择了怡和奖学金,放弃了三一学院的奖学金,进入剑桥完成本科、硕士阶段的学习,本科三年、硕士一年。
在本科大一期间,我曾尝试Investment banking实习,但很快发现该行业并不适合自己,转而全身心投入计算机科学研究,特别是关于人脑认知机制如何启发机器学习系统的方向,这让我逐渐爱上学术研究,并决定继续攻读博士学位。
博士阶段,我跟随导师Kristensson(他发明了如今被安卓与苹果手机广泛使用的滑动键盘输入技术,这个技术商业化后被出售给语音识别独角兽公司Nuance,后被微软收购)开展研究。选择这位导师,也是因为我始终希望从事能落地、能产生真实产品价值的技术研究。博士期间两年内,我作为一作发表了十余篇论文,研究方向集中在机器学习、多模态机器学习以及其如何为真实产品创造价值的领域。
2023年,我加入Meta,在西雅图的Meta Reality Labs担任Research Scientist,从事多模态与感知相关研究。这一阶段的我并不仅仅是为了工作,更重要的是为未来创业做准备。当时我有三个明确的目标。第一,我希望找到未来可以一起创业、真正能做出伟大产品的合伙人。我认为做成一家真正伟大的公司,最重要的不是点子,而是“对的人”。我在Meta时非常有意识地花大量时间与不同部门的同事交流,每周至少会深度聊十几位工程师与研究员,主动进行跨团队合作,寻找未来可能一起创业的人选。最终,我找到了现在的联合创始人。我们曾一起在Meta发表过四篇论文,落地过两个项目,其中这些项目至今仍在线运行于Meta的产品线上。我们的其他早期核心成员也都来自Reality Labs的On-device perception等关键团队。
第二,我希望真正理解“未来世界会长什么样”。因为这些大型科技公司其实正在以Billion-dollar级别的投入构建未来世界的底层形态。我在Meta内部看到过两个让我极为震撼的项目。第一个项目是ChatGPT还没出来的,一个没有很受重视的小团队,他们创造了一副眼镜与无限续航的外挂电池,对现实办公环境进行全天候影像采集,并将所有影像进行3D甚至4D重建,不仅重建了办公楼的空间结构,还完整记录了人在其中的时间序列活动轨迹。这让我第一次直观意识到:如果未来要出现真正的AGI,它必须像人一样“看懂这个世界”,而不是只处理文本。
第二个让我印象深刻的,是当时Meta内部已经开始系统性讨论agents的未来形态:未来会出现大量agents,为个人和组织执行各种任务,比如订酒店、机票等。但这些agents普遍缺乏一个根本问题的解决方案,因为它们无法真正理解“你是谁”,也无法获取你的完整上下文(full context)。
当时我开始形成一个清晰判断:未来一定需要一个位于“人”与“所有agents之间”的中间层系统,一个Personal AI System。它拥有你全部的长期记忆(memory),能够理解你的偏好、经历与生活方式和体系,并代替你与各类agents进行交互,把最完整、最真实的“你”提供给所有智能体系统。也正因为这个逻辑,我们把公司命名为Memories.ai。在我们的设想中,Memory不是一个附属功能,而是未来个人AI的核心系统。
所以当蓝图确定下来之后,我们就开始找具体实施的差异化路径。我认为AI本质上由两个核心维度构成:一个是intelligence,也就是reasoning和推理能力;另一个是memory,即编码、回溯与长期存储能力。当前几乎所有大型科技公司,包括OpenAI、Meta等都在围绕“智力层(intelligence)”展开军备竞赛,集中资源去提升模型的推理、理解与生成能力,因为大家都判断未来只会有极少数公司掌握最顶级的“智力引擎”。
但当整个行业都在疯狂卷intelligence时,我们选择反向进入一个几乎无人系统性攻克的方向:memory层。在我看来,目前市面上大多数所谓“记忆型AI”,本质上仍是文本记忆,即context engineering。它的结构决定了:很难形成真正的技术壁垒;记忆的形态往往依附于最终应用的界面设计;更像是“应用层输入的一部分”,而非基础设施。这使得“文本记忆”很难被标准化为可以规模化复用的基础设施能力。
视觉记忆则完全不同。视觉是人类最原始、最底层的感知信号。我们做的不是“生成式记忆”,而是把视频转化为结构化数据,并让AI可以直接消费(consume)这些数据。
我们当前的核心技术聚焦在两件事情上,第一是将视频转成结构化数据的编码(Encoding)。就像农夫山泉从水源中提取、过滤出可饮用水一样,我们将大量杂乱无章的视频内容拆解、转译成结构化信息,使其成为AI可理解、可索引的基础数据层。第二是在结构化视频数据之上的高效搜索(Search)。我们正在构建视频原生(video-native)的搜索体系,解决如何在海量视频数据中进行高效、准确检索的问题。这是未来机器人、可穿戴设备、全天候摄像系统必然面临的核心基础设施难题。
在我们看来,未来世界的视频数据规模将远超今天的互联网文本规模,而Memories.ai所构建的,正是这时代的“视频记忆基础设施层”。短期层面,我们已经开始与安防公司、电商平台展开合作;在中长期,我们也会与国内一线大厂、AI硬件初创公司、人形机器人相关团队展开合作。这些合作主要围绕一个核心能力展开:让机器真正“理解”视频,而不仅是存储视频。

ZP:Memories.ai团队的构成非常技术密集,包括您和联合创始人Ben Zhou等都来自顶尖研究机构。这种科研与产品融合的背景如何帮助公司建立技术领先优势?
Shawn:我本人目前也是布里斯托大学(University of Bristol)的教授,在校内带领一个实验室,团队中包括六七位博士生在内,长期持续从事与Memories AI相同方向的视频理解、结构化与视觉记忆相关研究。这为公司提供了稳定的前沿研究供给。其次是,公司本身位于硅谷,目前也被认为是硅谷最具吸引力的早期AI公司之一,具备较强的人才吸引能力,能够吸引许多非常优秀的工程师和研究员加入,共同去做一些很酷的事情。
从技术层面看,我们已经在两个核心方向建立起壁垒:第一是编码层(Encoding Layer)。我们在研究如何将传统的视频压缩、结构化的全过程从“给人看(Encode for human)”,转为“给AI用(Encode for machine)”,让模型变得更小、更高效,并最终能够部署到端侧。因为未来不仅是端上计算,我们需要直接运行在包括摄像头模组在内的端侧,而不再依赖中心云端算力。
第二是视频原生搜索层(Search Layer)。我们在构建视频原生搜索数据库,让AI可以在海量视频数据中进行高效检索。同时,我们也在研究如何进一步压缩视频存储体积,使得视频不仅“可被理解”,还“可被长期保存”,同时大大降低存储成本。这些工程化与模型研究并行的体系,使得Memories AI能够持续保持技术领先。
ZP:目前大多数AI在视觉理解方面只能处理短片段视频,并且缺乏持久记忆,这给企业级应用带来哪些根本性限制?Memories.ai是如何定位这一行业痛点的?
Shawn:现在大家都在谈多模态AGI,也出现了一些相关产品,但目前行业里通行的“快速上手型方案”,本质上都是把视频切成一分钟一帧、五分钟一帧,或者只截取几秒钟的片段,再送进多模态大模型生成caption或描述,随后再基于这些描述去做传统的文字RAG。这种方式非常场景化,本身存在很多缺陷。如果产品定位偏娱乐、生活或陪伴类应用,这种方式可能还能成立,因为用户本身没有一个明确的工作流目标,也没有清晰的ROI要求。但这种产品会面临一个非常现实的问题,就是很难建立持续付费的商业模型。除非陪伴体验做得非常好,否则用户很难长期为这种缺乏明确ROI的软件持续付费。
反而现在非常成功的AI创业公司,包括硅谷那些头部公司,本质上都是在取代原有工作流程中的“workflow”。用户可以非常清楚地算出ROI:比如原来这个岗位要花多少钱,现在AI帮你节省了多少成本、提高了多少效率。也正因为如此,现在做得最好的大公司几乎全部都是在做AI效率工具,把“完成一件事的路径”大幅缩短。相比之下,AI陪伴赛道虽然当初被讨论很多,但到现在真正做得非常好的其实并不多,核心原因就在于ROI很难被清楚计算。
基于这一判断,我们在算法和产品方向上非常明确地聚焦在“优化工作流与效率”的通用技术底层。而在这个方向下,目前行业通行的caption路线其实是完全不成立的。首先是注意力缺陷,在生成caption之前,你必须先给模型一个prompt,而当你给出这个prompt时,就已经预设了模型的注意力范围。例如你让模型“描述这个人的表情”,模型的注意力就只能集中在人身上,但用户也许真正想关注的是画面中的其他内容,这时原有的caption就会完全失效。事实上,这种注意力缺陷不仅存在于产品设计层面,也内嵌在主流视觉–语言模型的预训练机制中,因为它们本身就是通过image或video与caption的联合训练方式构建的。这意味着它们天生并不是通用型感知系统,而必须依赖非常明确、固定的应用场景,而一旦场景被限定,也就会直接限制产品未来的拓展能力。
另一方面,视频本身是非常“重”的数据。如果通过caption路线来理解视频,意味着所有信息都必须转成token,而token的计算成本极其昂贵,处理速度也很慢,且无法进行有效的并发扩展。但无论是人还是未来的人形机器人,真正需要的都是每秒多帧、持续不断的感知能力,并且能够随时对这些视觉记忆进行回溯。在这种情况下,caption路线就会变成一个既重、又慢、又贵的方案,完全无法支撑真实工作场景中的长期感知与回溯需求。
因此,Memories AI选择了一条完全不同的技术路线。我们不再通过caption作为中间层,而是直接对视频进行全量的世界模型式编码,把视频流直接转化为向量空间中的连续记忆。编码、搜索以及后续的推理全部在向量空间中完成,不再依赖token化文字中间层。这正是我们用来解决行业中两大根本问题的方式:一方面,现有的“通用多模态方案”无法真正优化工作流与效率,只适合类似陪伴型产品;另一方面,真正要做效率型AI,就必须进行全量编码,而传统方案在成本和性能上都无法成立。这也正是Memories AI所选择的底层技术路线。
ZP:作为CEO和联合创始人,您在技术愿景上最核心的判断是什么?您觉得“视觉长期记忆”这一问题对AI的未来有怎样的战略意义?
Shawn:其实现在很多多模态AI硬件公司都在讲类似的故事,区别只是最后谁能真正实现。我们在模型和技术上本身就是以硬件结合为导向的,我们可以和各种各样的硬件进行深度结合,目前也在和多种硬件厂商合作,为他们提供底层能力支持。我们认为未来会出现三大类硬件形态:第一类是可穿戴及消费级的、带摄像头的硬件;第二类是企业级AI硬件;第三类是人形机器人。
在消费级AI硬件层面,包括可穿戴设备以及各种手持、带摄像头的硬件形态,本质上都会为个人提供一个“第二个数字副本”。这个数字副本的意义在于,当未来我们在使用多Agent系统时,就不再需要绞尽脑汁地去回忆和整理自己的上下文。因为很多时候人并不擅长整理自己长期积累的经历和信息,而AI恰恰擅长从海量数据中提炼关键信息并进行结构化整理。多模态AI如果能够真正理解你每天真实发生的事情,就可以帮助你更好地进行个人管理,并使未来的Agent服务变得更加个性化。
这里面就涉及到一个关键问题,为什么必须要有视觉模态,因为仅仅有音频是不够的。在很多真实生活场景中,音频所能表达的信息是非常有限的。比如我们参加展会、开会,人的行为其实是高度复杂的,真正重要的不只是“说了什么”,还包括“是谁在说”“在什么场景下说”“面对的是谁”。传统的录音记录方式更多是围绕时间和事件展开的,但我们真正希望整理出来的信息,往往是围绕“人”展开的,而这一点就必须依赖视觉感知。
此外,不同场景下人所需要的上下文是完全不同的。会议场景、家庭场景、工作场景,每一种场景都对应着不同的认知与行为逻辑。系统要能够进行这种场景之间的切换,就必须具备视觉层面的理解能力。再加上诸如看PPT、参展、演示等大量依赖视觉信息的行为,决定了视觉长期记忆在个人智能系统中的不可替代性。
ZP:那么,在多模态长期记忆真正建立之后,它在更具体的应用层面,会首先在哪些方向体现出价值?
Shawn:多模态记忆首先会让人的上下文变得更加丰富,也会让未来的Agent系统变得更加个性化。但更进一步来看,它还会演化为一个非常关键的中间层,为未来大量围绕个人行为而构建的Agent提供底层数据支持。
在比较偏“科幻”的应用层面,它可以帮助解决大量日常生活中极为真实的需求。例如,我的钥匙放在哪了、手机落在哪里了、出门时提醒我带钥匙,或者帮我记录每日的卡路里摄入、健身时做了多少组训练、健身训练的动作质量如何,甚至长期充当我的私人教练。这些都依赖于持续、稳定的视觉长期记忆能力。未来会出现大量围绕健身、膳食、生活方式而构建的垂直Agent,而Memories.ai所提供的长期视觉记忆,正是这些Agent所需要的基础数据来源。
回到更加现实和“产品化”的层面,多模态记忆也可以被理解为一个“AI相册”。现在越来越多的人有记录生活的需求,但真正进行回溯时却非常困难。一方面是内容非常多,另一方面是传统相册主要只能通过时间维度进行查找,人们往往需要先回忆发生的时间点,再逐个翻看照片和视频。我们真正希望实现的是一种基于自然语言的检索方式,用户可以直接用语言去描述自己想找的记忆场景,系统再把对应的图像和视频直接呈现出来。这也是Memories AI希望重点推出的功能方向之一。
从短期来看,多模态记忆已经具备非常明确的应用价值,比如它可以帮助个人更好地进行复杂事务管理,也可以作为“AI相册”帮助人们更好地管理自己的回忆,还可以为健身、饮食管理等高度场景化的Agent提供底层数据支持。而从更长远的角度来看,人形机器人几乎一定需要像人一样具备真实的视觉长期记忆能力。
比如在家庭场景中,机器人如果要帮你做家务,它必须真正理解你平时的行为习惯,例如应该先做哪里、再做哪里,你的特殊偏好是什么。如果未来家里需要更换一台新的机器人,但你希望它仍然“是你熟悉的那个机器人”,那么就需要有一个可迁移的长期记忆体系。理想状态下,你可以像插拔SD卡一样,把你的Memories记忆模块迁移到新的机器人上,或者通过账号上传下载的方式,把你的“数字自我”完整复制过去,这正是我们希望实现的方向。
在企业端,多模态长期记忆已经有非常明确的落地应用场景。当前我们在安防与企业运营管理领域已经展开了大量合作。例如,企业希望了解每天来了多少员工、员工什么时候上班、什么时候下班、他们在工作时间内具体做了什么。我们也与一家非常大型的炸鸡连锁品牌合作,对方希望通过系统判断员工的操作是否规范,比如炸鸡掉到地上之后,是重新捡起来使用,还是按照流程丢弃到垃圾桶。这类极细颗粒度的运营管理,本质上都依赖于持续、可靠的多模态视觉记忆系统。
因此,我们整体围绕三大业务方向展开布局:第一是面向个人端的、带摄像头的消费级AI硬件;第二是面向企业端、以安防与运营管理为核心的带摄像头AI硬件;第三则是面向未来人形机器人的长期记忆体系。
ZP:请您介绍一下Memories.ai的核心产品,包括Large Visual Memory Model(LVMM)的设计理念、技术架构和与传统视频理解/检索系统的关键性差异。
Shawn:我们现在主推的并不是传统意义上的视觉—语言模型,而是一个真正意义上的“视觉记忆模型”。目前主流的多模态模型,更多是在做视觉token与语言token的对齐,它们本质上还是从“语言理解”出发来理解世界。但这样做会带来一个根本性的限制:它们只能在被prompt的前提下工作,而且理解是局部的、被触发式的,很难形成真正连续的、完整的世界理解。

我们选择了一条完全不同的路径。在Memories.ai里,我们在做视觉编码时使用的是一个“世界模型编码器(world model encoder)”。这个编码器并不是先去对齐语言,而是从视觉本体出发,直接对真实世界进行建模。
在编码阶段,我们让模型去预测下一个token和事件的演进过程,这意味着它会持续地构建对世界状态的理解。这就像一个小孩子理解世界的方式:不是先学会“这个视觉token对应哪个词”,而是先建立起对“这个东西是什么”的完整概念,即并不是先做语言对齐,而是先形成概念体系。比如看到很多外形相似的物体,会慢慢形成“椅子”“车”等抽象概念——长得差不多的都是椅子,四个轮子的就是车。他们是先形成一个全面的、整体性的世界理解框架,之后才逐步把这些概念和语言、文字、图片对应起来。
我们在模型设计上也是同样的逻辑:先构建完整的视觉世界理解,再在post阶段去做视觉与文字的联系。这使得我们的编码过程是“全量性的编码”,而不是一种被prompt触发的、注意力缺陷的编码。
ZP:Memories.ai除了基础研究意义外,在视频安全、媒体内容检索、营销洞察和智能代理等场景已经获得客户认可。您能否举例说明这些应用案例如何产生商业价值?
Shawn:我们目前已经和北美一些非常大型的安保公司展开了深度合作,为他们提供我们的视觉记忆模型,主要落地在两个非常核心的场景中。
第一个是实时监测场景。在这个场景里,我们的模型被用来对视频流进行持续的实时理解,用于判断环境中是否存在危险事件,比如是否有火灾、是否有人闯入、是否存在异常行为等。模型可以持续跟踪场景变化,对风险进行判断,而不是只在被触发时进行片段式识别,这使得整个监测系统的实时性与准确度都有明显提升。
第二个是一个基于多模态理解的人物画像与行为建模场景,主要应用在家庭与社区类的安防环境中。模型不仅可以识别“来访的人是谁”,还能持续理解这个人的日常行动轨迹、行为模式、活动习惯,进而形成稳定的人物画像。通过这种方式,系统不仅可以对异常行为进行更早期的识别,还可以基于人物画像进行安防策略的判断,使整体的安防检测能力得到明显增强。
ZP:目前产品的API、Web App、视频分析/检索功能具备怎样的商业化能力?未来是否会扩展到更深度的智能代理或视觉智能平台?
Shawn:我们长期希望把Memories AI打造成一个视觉记忆基础设施平台。未来,几乎所有的音视频数据都会被存储在Memories.ai的平台之上。大家通过各种摄像头和智能设备获取的影像内容,本质上都会由我们的视觉记忆系统进行统一的存储、编码和理解。
之所以选择这个方向,是因为音视频处理本身是一个非常重的工程,绝大多数公司其实并不具备自研整套音视频理解系统的能力。除非是少数体量极大的公司,能够组建自己的研发团队,否则大部分企业都更希望有一个成熟、可外采的解决方案。因此,我们希望成为这个领域的“中央化视觉记忆平台”,为他们提供统一的视频存储、理解与管理能力。
在这个平台之上,客户依然可以继续构建自己的业务逻辑的上下文,但视频本身的理解、索引与记忆,将由Memories AI来提供。基于我们的技术优势,我们也会在平台之上推出一系列小型视觉理解工具。例如面向内容平台的应用工具:抖音视频的一键拆解、趋势分析、内容结构理解,这些都会以轻量级工具或小型应用(tool/app)的形式存在。
此外,我们也在打造自己的示范性产品LUCI。它更多是一个reference design的角色,用来向市场展示“基于Memories.ai的视觉记忆技术,究竟可以做到怎样的产品形态”。这就类似当年Google为了推广Android而推出Pixel phone的逻辑,通过一个标杆产品,让外界清楚理解我们技术的能力边界。
ZP:Memories.ai在短时间内完成了超过800万美元以上种子轮融资,且背后有Samsung Next、Susa Ventures等全球知名机构。这对公司在技术开发与市场扩张意味着什么?
Shawn:我们最早的融资节奏其实非常快。公司在两周之内就完成了800万美元的种子轮融资,随后老股东又很快追加了约500万美元。整体累计融资金额已接近1300万美元规模。

我们的领投方是Susa Ventures。他们是Robinhood的最早期投资人之一,在Robinhood只有两个人的时候就已经参与投资。同时,他们也投资了当前硅谷非常活跃的一批公司,并且在AI领域投出了不少独角兽企业。我们的投资人中还包括三星,以及来自欧洲的一些基金,例如Seedcamp。他们曾在UiPath、Revolut等公司还处于几百万美元估值阶段时就已参与投资。当时包括Andreessen、Basement等多家一线基金也向我们发出过投资意向,但最终我并没有选择接受这些机构的投资。
原因是我认为,在这个阶段,大体量基金的盘子太大,一旦公司发展节奏略慢于他们的预期,他们对单一项目的支持力度相对有限。相比之下,我们更希望选择在长期发展中能给予更高支持密度的基金。因此,我们最终只选择了这种长期陪伴型投资人的资金。
ZP:在顶尖AI研究人才竞争日益激烈的背景下,公司甚至推出高达千万美元级别薪酬激励以吸引顶级研究人员。这种人才策略将怎样推动技术积累与产品开发?
Shawn:我认为创业公司最重要的一点就是极度专注(focus)。我们非常明确地选择只专注在一个关键问题上:视觉记忆与视频编码这一层。这也是为什么我们没有选择做消费级硬件。因为如果在硬件上投入过多精力,就会消耗团队大量注意力,而目前很多硬件产品本身并不成熟。我们更倾向于先把核心技术和产品打磨到ready的状态,再考虑进一步扩展。
我们看到,当前行业中针对视频编码和视觉记忆的主流方案仍然存在非常明显的缺陷,而这个方向未来一定会成为核心基础设施,但真正深入做这一层的团队并不多。因此我们选择在这个层级上深度投入,并把这件事做到极致。
在基础设施层面,我们拥有自己的硬件平台、评估平台和非常大规模的数据集。这使得研究人员加入后可以迅速开始实验、训练模型和快速试错。我们从两三年前就已经开始在这个方向进行长期布局,在公司成立之前就开始搭建数据集、硬件平台和评估体系。
在探索性技术中,一个极其重要却经常被忽视的环节是:评估框架(evaluation framework)。在很多公司里,研究人员还需要自己去采集大量琐碎数据,搭建各种基础设施,这极大地拖慢了技术迭代效率。而在Memories.ai,研究人员一上来就拥有完整的一般性评估框架,可以专注在模型本身的提升,使整个技术迭代速度更快。
ZP:您如何看待视频AI在未来几年在安全监控、媒体资产管理、内容创意与机器人视觉等行业中的渗透?在全球范围内哪类企业将是Memories.ai的核心客户?
Shawn:我们的核心优势仍然是极度专注在模型和视频编码这一层。在新兴技术领域,尤其是创业公司,最重要的不是“什么都做”,而是要有清晰而独特的定位。
每一家公司都必须专注于自己的关键层级:比如机器人公司要专注在机器人本体与运动控制系统;模型推理公司要专注在reasoning;人机交互公司要专注在运动控制和系统集成;而我们专注的,就是视频编码与视频记忆这一层。如果一家创业公司试图把所有事情都做完,那么在资源有限的情况下,反而会导致每一层都做不好,失去自己的独特定位。
实际上,大型公司也正在越来越多地接受外采方案。他们逐渐意识到,不是所有基础层都值得完全自研,而视频记忆这一层,是通向AGI的关键基础设施之一,也是无法被忽略的一层。从本质上讲,我们更准确的定位其实应该被称为“视频记忆infra”,甚至比“纯文本记忆”更重要。因为纯文本记忆是可以相对容易地结构化和固化的,而视频记忆才是真正复杂、不可替代的长期认知基础。
ZP:相比文本AI,目前视频AI的最大挑战是什么?为什么Memory(记忆)比理解更重要?您如何判断视觉记忆会成为AI下一阶段的核心基础设施?
Shawn:视频记忆最核心的挑战在于:视频编码如何被模型化、轻量化,并且做到可规模化部署。我们需要不断把视频编码模型做得更小、更快,同时还能保持持续理解能力。
我们现在已经可以把模型部署在MPU上运行。到明年,我们希望实现极低功耗版本的模型,并稳定运行在MPU级别设备上。在未来3–5年,我们的目标是把模型进一步压缩到MCU上运行;更长远的目标,是直接将模型集成到摄像头模组本身。这样,视频编码就可以在前处理阶段直接完成,而不是全部依赖云端。
另一方面,搜索能力同样是关键。未来数据规模会持续增长,因此我们需要构建一种“端云协同”的搜索架构:既支持端侧的快速搜索,又支持云端的长期存储与备份,从而形成混合型搜索与记忆系统。这些都是我们持续聚焦的核心技术方向。
ZP:从长期来看,你们是否会与大型语言模型厂商形成协同?在未来的底层生态中,你们将如何与这些语言推理模型分工协作?
Shawn:我们与大模型厂商之间是天然互补、完全可以协同合作的关系。我们做的是retrieval,本质上是“记忆与回溯”,而他们做的是reasoning,即推理。这两个能力在认知链路中本来就是前后衔接的。
以人类为例,我们先通过视觉感知世界,形成长期记忆;当被提问时,会先回溯记忆,再基于这些记忆进行推理。例如,当你被问到“你过去一周吃得健不健康”,你首先需要回溯你过去一周的饮食行为,这个回溯过程就是retrieval;之后才进入推理阶段,判断是否健康,这才是reasoning。
因此,我们本质上是为大模型提供长期视觉记忆与回溯能力,而reasoning则是大模型厂商的核心优势,这使得双方具备非常明确的协同空间。
ZP:在您关注的AI和或非AI领域里,有哪些公司或项目您认为值得学习或有合作潜力?
Shawn:有一家我非常关注的公司叫Glean。他们在本质上是重写了“搜索”这件事。他们从企业搜索这个非常明确的切入点入手,把效率这一件事做到极致。我们做的是视频搜索,本质逻辑与他们其实是非常相似的。我相信他们的长期目标也不会仅仅局限在企业搜索,而是会扩展到更广阔的认知与信息基础设施层。
我们同样选择从非常明确的切入场景开始,未来再逐步延展到机器人与工业领域。我认为他们的切入方式和专注度都做得非常好,是一个非常值得参考的团队。
ZP:最近有没有一本书、一篇论文或某位导师/合作者对您影响很深,尤其在思考AI记忆或视频理解方面?
Shawn:我会推荐一本书叫《The Mom's Test》。这本书主要讲的是如何真正理解用户,如何避免被表面反馈误导,从而判断用户真正需要什么。我之前在很多访谈中也都提到过这本书,它对我做产品决策的影响非常大。
ZP:在硅谷繁忙的创业生活中,您是如何保持技术敏感度和创造力的?有没有什么习惯或方法可以和年轻工程师分享?
Shawn:我认为最重要的一点就是——多和用户交流。多跟客户聊天,就能持续保持对真实用户需求的感知。
文章来自于“Z Potentials”,作者“Z Potentials”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】photoprism是一个利用AI管理个人照片的工具项目,它利用最新技术自动标记和查找你的私人图片。
项目地址:https://github.com/photoprism/photoprism?tab=readme-ov-file#photoprism-browse-your-life-in-pictures
在线使用:https://demo-zh.photoprism.app/library/browse
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0