你有没有想过,我们每天敲击键盘的这个动作,可能很快就会变成历史?150 年前发明的键盘,竟然仍然是我们与计算机交流的主要方式。这件事本身就很荒谬。我们的思维速度远远超过手指敲击的速度,而在 2025 年的今天,键盘往往成了阻碍我们表达想法的瓶颈。更讽刺的是,过去 15 年里,由于智能手机键盘的普及,人类的平均打字速度实际上是在下降的。我们正在倒退,而不是进步。
这让我不禁思考一个根本性问题:如果你能像和朋友聊天一样跟计算机对话,会是什么样的体验?如果不再需要记住复杂的快捷键、不再需要在密密麻麻的菜单中寻找功能、不再需要为了发个消息而在小屏幕上疯狂点击,我们的工作和生活会发生怎样的改变?最近,一家名为 Wispr Flow 的创业公司刚刚完成了 3000 万美元的 A 轮融资,由 Menlo Ventures 领投,NEA、8VC、Pinterest 创始人 Evan Sharp、Carta CEO Henry Ward 等知名投资者参与。这家公司正在做一件看似简单但实际上极其复杂的事:用语音彻底取代键盘。
我深入研究了他们的故事后发现,这不仅仅是一次技术升级,而是一场可能重新定义人机交互方式的革命。更有趣的是,这个革命的领导者 Tanay Kothari 有着非凡的经历:9 岁开始编程,12 岁立志成为企业家,代表印度参加国际信息学奥林匹克竞赛,在斯坦福大学学习期间就已经创办并成功出售了一家公司。而现在,他正在实现一个从看《钢铁侠》电影时就萌生的童年梦想:构建像贾维斯那样能够真正理解人类意图的 AI 助手。这不是偶然的成功,而是一个从小就对人机交互充满热情的天才程序员,经过十多年积累后的厚积薄发。
说到语音交互,我们都有过糟糕的体验。无论是 Siri 理解错你的指令,还是 Google Assistant 给出莫名其妙的回答,又或者是各种语音转文字工具需要你花更多时间修改错误,而不是直接用键盘打字。我一直很困惑,为什么拥有世界顶级工程师的苹果、谷歌这些大公司,仍然无法解决语音交互的问题?
Kothari 给出了一个让我恍然大悟的答案:他们解决的是错误的问题。目前市面上所有的语音转录服务都在优化一个叫做"单词错误率"的指标,也就是你说的话中有多少单词被完美识别出来。他们会自豪地宣称:"我们的准确率达到了 98% 或 99%。"但这个指标完全没有意义。即使你的单词准确率达到 99%,这意味着每个句子中大约会有一个单词是错误的。而一个句子只要有一个单词错了,你就无法信任这个句子的输出。这就是为什么我们总是需要花大量时间修改语音转录的结果,最终发现还不如直接用键盘打字。
Wispr Flow 采用了完全不同的方法。他们优化的指标叫做"零编辑消息率",也就是有多少比例的消息可以直接发送而无需任何修改。这个思路的转变看似微小,实际上代表了完全不同的技术哲学。传统的语音识别专注于准确捕捉你说的每个词,而 Wispr Flow 专注于理解你的意图,并将其转化为清晰、结构化的文本。人类说话和写作的方式本来就不同。当我们说话时,会有停顿、填充词、中途改变想法,甚至会自我纠正。一个真正有用的语音助手应该理解这些人类语言的特点,而不是机械地记录每个词汇。
这种技术哲学的差异导致了完全不同的用户体验。Wispr Flow 目前已经达到了 80% 的零编辑率,而且这个数字还在持续改善。更令人印象深刻的是,用户下载产品六个月后,80% 的人仍在使用它,而且其中超过一半的人现在用 Wispr Flow 写了超过 70% 的文字内容,跨越平均 60 多个应用程序。想象一下这意味着什么:这些用户实际上已经开始用语音取代键盘了。
Wispr Flow 的故事很有意思,它最初并不是一个软件项目。创始人 Kothari 最初的想法是创造一个硬件设备,让用户只需无声地动嘴唇就能打字。听起来像科幻小说,但这确实是他们最初获得投资的项目方向。不过在去年,公司决定专注于软件界面 Wispr Flow,这个决定后来被证明是明智的。
从某种意义上说,这种转变反映了整个科技行业的一个趋势:最大的突破往往来自于对现有技术的重新思考和组合,而不是全新的硬件发明。大语言模型的成熟为语音交互提供了前所未有的可能性,但关键在于如何正确地应用这些技术。
更重要的是,他们从一开始就将用户体验放在技术实现之前。他们的目标不是构建最先进的语音识别模型,而是构建一个用户真正愿意每天使用的产品。这种以用户为中心的方法体现在产品的每个细节中,从支持 104 种语言(其中 40% 的语音输入是英文,60% 是其他语言),到能够无缝处理语言中的停顿、填充词和思路转换。
要理解 Wispr Flow 为什么能够成功,你必须先了解 Kothari 这个人。他的故事读起来像是硅谷传奇的完美样本,但每一个细节都是真实的。9 岁时,因为几个高年级学生说他"太小了,不会懂编程",他愤怒地回家熬了人生第一个通宵,在 YouTube 和 DreamInCode 网站上自学编程。那是四年级,一个身高只有一米二的小孩,抱着数学书到处走,因为他觉得数学"很有趣"。
但真正塑造他创业DNA的,是 13 岁时创建的 ConvertCC 项目。那是在 LimeWire 被关闭后,他发现人们没有好的方式免费下载音乐,于是构建了一个平台,用户可以说"播放 Imagine Dragons 的最新歌曲",系统就会自动找到并下载。没有任何营销预算,这个产品病毒式增长到 250 万用户。然后 Google 发来了停止令,因为他们的服务会从 YouTube 转换视频为音频。一个 13 岁的孩子,用免费的 Google Cloud 积分,在 Google 的平台上构建了一个让 Google 感到威胁的产品。这种讽刺意味十足的经历,也许从那时起就注定了他要挑战科技巨头的命运。
更令人惊讶的是他在学校的表现。从中学到高中,他每个月只去学校一两天,其余时间都在家里自学大学课程或者编程。但他的成绩依然优秀,因为他有一群愿意在考试前花六小时教他的朋友,而他也会在其他科目上帮助他们。他的老师们支持他这样做,因为他们知道他在为国际信息学奥林匹克竞赛做准备。最终,他成功代表印度参加了这个被称为"编程界奥运会"的比赛。
这种非传统的成长经历培养了他两个关键能力:快速学习和深度专注。他能像读床头故事一样快速阅读教科书,并且理解其中的逻辑连接。更重要的是,他养成了每天编程 20 小时的习惯。为了不被父母发现,他会等到晚上 10 点父母睡觉后开始编程,一直到早上 5 点半母亲准备叫醒他时再跳回床上装睡。这样的生活持续了整个中学和高school时期。这不是天赋,而是近乎疯狂的热情和坚持。
当他告诉父母想去斯坦福而不是印度的 IIT 时,这对父母来说是个巨大的冲击。学费贵了 100 倍,要送孩子到另一个国家,但最终他们支持了他的决定。在斯坦福,他继续保持着这种工作强度,一边学习一边创业。毕业时,他没有申请任何工作,而是全身心投入到创业中。这种从小培养的创业精神和技术深度,为后来 Wispr Flow 的成功奠定了基础。
Kothari 的第一次成功创业是 FeatherX,这家公司专注于构建"更个人化的互联网"。他们的想法是让每个网站都能根据用户的行为和偏好进行个性化调整。比如,当你在购买床垫时停留在关于背痛缓解的评论上,整个网站就会重新组织内容,专注于解决你的背痛问题。然后当你访问其他网站时,它们也会知道你关心腰部支撑,并相应调整内容。
这个项目只用了 6 到 9 个月就被 Cerebras 收购。有趣的是,当 FeatherX 在寻求 200-300 万美元融资时,同时收到了收购要约。最终他们选择了收购,Kothari 成为 Cerebras 的产品和工程负责人。这段经历教会了他如何管理团队,如何从一个纯技术人员转变为领导者。他承认最初几个月他在管理方面很糟糕,特别是作为一个 21 岁的年轻人要管理一些年龄和他父母相仿的员工。
但他有一个导师,Cerebras 的首席商务官,给了他几本管理书籍,并指导他如何与年长的同事合作。Kothari 将此视为挑战,给自己设定了六个月内成为这些人见过的最好管理者的目标。六个月后,他确实做到了。这种将个人挑战转化为学习机会的能力,正是优秀创业者的特质。
正当他准备在 Cerebras 待五年并将其发展成大型企业时,他的大学室友兼联合创始人 Sahaj Garg 给他打了个电话。Sahaj 刚刚离职,想要创业,这让从未想过创业的 Sahaj 突然提出这个想法令 Kothari 很惊讶。但当 Kothari 分享了他从小就有的愿景——构建一个真正理解用户的个人语音助手时,两人一拍即合。
他们花了两个月时间讨论价值观、愿景、如何处理潜在的收购要约、想要招聘什么样的人,以及公司的规模和野心。这种深度的前期讨论为他们后来三年多的合作奠定了坚实基础。Kothari 说这也许是他最强的人际关系之一。这种合伙关系的成功,很大程度上来自于他们花时间在技术细节之前先建立了哲学和价值观的一致性。
当我深入了解 Wispr Flow 的技术实现时,我发现他们解决问题的方法与众不同。大多数语音技术公司专注于提高转录准确性,但 Wispr Flow 将模型视为起点而非终点。Sahaj Garg 是扩散模型的先驱之一,这些模型现在支撑着 Midjourney、DALL-E 等工具。团队中的机器学习博士们具备调整大多数人甚至不知道存在的模型参数的能力。
一个具体的例子是他们如何解决大语言模型的幻觉问题。早期版本的 Wispr Flow 有时会出现这样的情况:当你想要输入一个问题时,系统却直接给出了答案,而不是将问题文本输入到你想发送的地方。这种行为显然是错误的,但却是所有大语言模型都面临的常见问题。通过深入模型内部进行微调,他们将这种幻觉率降低了约一千倍。这种程度的优化需要的不仅仅是调用 API,而是对模型架构和训练过程的深度理解。
更重要的是,他们重新定义了成功的衡量标准。传统的语音识别服务优化"单词错误率"——你说的单词中有多少被正确识别。即使达到 99% 的准确率,一个 80 词的消息(大约五六个句子)仍然有超过 80% 的概率包含错误。而且这个指标完全忽略了非语音问题,比如格式化、对专有名词和同音词的深度理解,以及捕捉真实用户意图的许多细微问题,包括人类说话时经常出现的自我纠正倾向。
Wispr Flow 优化的是"零编辑率"——整个转录无需修改的比例。目前他们已经达到 80% 的零编辑率,而且这个数字在持续改善。这种方法的差异反映了完全不同的产品哲学:不是机械地记录用户说的每个词,而是理解用户想要表达什么,然后生成清晰、结构化的文本。这更接近人类助理的工作方式——理解老板的意图并生成合适的输出,而不是逐字记录。
这种技术方法的成果体现在用户行为上。六个月后,超过半数用户现在用 Wispr Flow 写超过 70% 的字符,跨越平均 60 多个应用程序。这意味着语音输入已经从辅助功能转变为主要的交互方式。更令人印象深刻的是,目前约 10% 的下载用户是付费用户,这个转化率远高于 Dropbox 等公司通常的 5% 或更低的标准。
他们在个性化方面也做了大量工作。Wispr Flow 支持 104 种语言,其中 40% 的语音输入是英文,60% 是其他语言,主要包括西班牙语、法语、德语、荷兰语、印地语和中文。但更重要的是,系统能够理解每个用户的说话习惯、专业术语使用和个人偏好。这种个性化不是通过简单的用户设置实现的,而是通过持续学习用户的语言模式和意图表达方式。
Menlo Ventures 的合伙人 Matt Kraning 领投了这轮 3000 万美元的融资,他对 Wispr Flow 的评价让我印象深刻。他说:"我们都厌倦了等待拇指跟上思维的速度。"这句话精准地概括了当前人机交互的核心问题。有趣的是,Kraning 并不只是一个投资者,他本身就是 Wispr Flow 的重度用户,甚至在成为正式投资者之前就是天使投资人。
这种"吃自己狗粮"的投资方式在硅谷并不常见,但却很有说服力。据 Kothari 透露,硅谷几乎每一家顶级风投公司都在使用 Wispr Flow 处理邮件、备忘录和文档。当投资者自己每天都在使用你的产品,并且感到"上瘾"时,那么投资决策就变得相对容易了。这也解释了为什么 Wispr Flow 能够如此快速地获得资金支持,总融资额已达到 5600 万美元。
Kraning 的投资逻辑很有趣。他认为如果你能构建一个人们信任的语音界面,你实际上就是在构建新的输入层。这意味着用户可以通过你的平台与其他一切交互,这本质上就是新的浏览器、新的搜索引擎、新的 iPhone。在一个越来越以自然语言为中心的互联网时代,控制输入层的公司有可能成为价值数千亿美元的企业。这不是渐进式改进,而是范式转变。
我特别认同 Kraning 提到的一个观点:平均每人每天花 5 小时打字,使用 Wispr Flow 后,这个时间可以降到 3 小时,相当于每年节省 21 天的时间。这不仅仅是效率提升,而是生活质量的改善。想象一下,如果你每年能多出三个星期的时间去做更有意义的事情,这种价值是无法用金钱衡量的。
更深层的投资逻辑在于,Wispr Flow 正在为人类与技术交互的方式奠定基础。目前,人类每天总共花费超过一百万年的时间与数字设备交互。如果能够让这种交互变得更自然、更高效,影响将是革命性的。这不再是从命令行到图形界面的跨越,而是从图形界面到对话界面的跨越。
Wispr Flow 的产品策略很聪明,他们没有试图一开始就构建一个通用的 AI 助手,而是专注于解决一个具体而重要的问题:文本输入。通过在这个核心用例上做到极致,他们建立了用户信任,然后再逐步扩展功能。这种策略避免了很多 AI 创业公司面临的"功能太多但都不够好"的问题。
他们的上线策略也很有意思。从 2024 年 10 月在 Mac 上发布,到 2025 年 3 月在 Windows 上发布,再到最近在 iOS 上发布,他们遵循了一个谨慎但快速的发布节奏。每个平台的发布都经过充分测试,确保用户体验的一致性。这种方法让他们能够专注于产品质量,而不是急于占领市场。
用户增长数据也证明了这种策略的有效性。应用的用户基数每月增长 50%,这是健康的有机增长,而不是依赖付费广告的虚假繁荣。更重要的是,40% 的用户在美国,30% 在欧洲,30% 在世界其他地区,显示了产品的全球吸引力。而且超过 30% 的用户来自非技术背景,这证明了语音交互确实降低了技术使用的门槛。
他们在用户研究方面也投入了大量精力。即使公司现在有 20 人,Kothari 每周仍然通过邮件与 100 多名用户交流,花 2-3 小时与他们通话。这可能是功能想法讨论,也可能是用户研究。这种与用户的深度连接帮助他们理解什么真正引起用户共鸣,并指导产品开发方向。
他们对于企业市场也有清晰的规划。即将发布的 Android 应用和企业功能,包括公司范围的短语上下文和支持团队,表明他们正在从消费者工具向企业解决方案扩展。这种扩展是自然的,因为很多企业用户已经在个人设备上体验了 Wispr Flow 的价值,现在希望在工作环境中也能使用。
最有趣的是他们对未来的愿景。他们不仅仅想构建一个更好的语音输入工具,而是想要构建一个了解你个人上下文的 AI 助手,能够帮助你完成日常任务,比如发送消息、记录笔记、设置提醒。他们还在与一些 AI 硬件合作伙伴合作,为交互层提供支持。这种从软件到硬件的整合,让人想起了早期的苹果公司。
语音技术并不新鲜,但为什么 Wispr Flow 能在现在获得成功?我认为有几个关键的时机因素。首先是大语言模型的成熟。以前的语音识别系统主要依赖统计模型和规则系统,无法真正理解语言的语义和上下文。而现在的大语言模型具备了真正的语言理解能力,这为智能的语音交互提供了技术基础。
其次是用户期望的改变。经历了 ChatGPT 和其他 AI 工具的用户现在期望技术能够理解自然语言。他们不再满足于机械的命令式交互,而是期望更自然的对话式体验。这种期望的转变为语音交互创造了市场机会。特别是年轻一代,他们从小就在使用 Alexa 这样的语音助手,对他们来说,用语音控制设备是很自然的事情。
第三是移动设备的局限性日益明显。虽然智能手机很强大,但在文本输入方面仍然很痛苦,特别是长文本。而且随着我们越来越多地使用移动设备工作,这种输入的局限性变得更加明显。语音输入提供了一个优雅的解决方案,特别是在移动场景下。
第四是远程工作的普及改变了我们的工作方式。更多人在家工作,意味着他们有了在私人空间使用语音的自由。不再需要担心在开放式办公室里说话会打扰同事。这种工作环境的改变为语音交互的普及创造了条件。
最后是AI工具的爆发式增长。现在每天都有新的 AI 工具发布,但大多数仍然依赖传统的文本输入界面。Wispr Flow 提供了一个更自然的与这些工具交互的方式。正如 Kothari 所说,ChatGPT 式的界面是三年半前发布的,现在是时候有新的交互方式了。
这些因素的结合创造了一个完美的时机窗口。技术已经成熟,用户已经准备好,市场需求已经存在。Wispr Flow 的成功不是偶然,而是对这些趋势的准确把握和执行。
我研究了很多语音技术公司的历史,发现大部分都失败了,或者只能在非常有限的场景下工作。那么 Wispr Flow 为什么能够成功?我认为有几个关键因素。
首先是时机。大语言模型的突破为真正智能的语音交互提供了技术基础。但更重要的是,用户的期望已经发生了变化。经历了 ChatGPT 和其他 AI 工具的用户现在期望技术能够理解自然语言。他们不再满足于机械的命令式交互,而是期望更自然的对话式体验。这种期望的转变为像 Wispr Flow 这样的产品创造了市场机会。
其次是技术方法的不同。传统的语音识别公司专注于准确转录,而 Wispr Flow 专注于理解意图。他们使用机器学习模型不仅仅是为了识别语音,而是为了理解用户想要表达什么,然后生成清晰、结构化的文本。这种方法更接近人类助理的工作方式:不是机械地记录老板说的每个词,而是理解意图并生成合适的输出。
第三是产品定位的差异。Wispr Flow 不是试图成为一个通用的 AI 助手,而是专注于解决一个具体而重要的问题:文本输入。通过专注于这个核心用例,他们能够提供比通用解决方案更好的体验。用户数据证明了这种专注的价值:大约 10% 的下载用户现在是付费用户,这个转化率远高于大多数软件产品的 5% 标准。
最后是团队的技术深度。Kothari 和他的联合创始人从斯坦福的顶级 AI 实验室开始,具有深厚的机器学习背景。这让他们能够深度定制模型行为,而不仅仅是调用现有的 API。在一个每天都有新的 AI 产品发布的时代,真正的技术深度成为了差异化的关键。
我觉得还有一个更深层的原因:Wispr Flow 解决的是一个真正的用户痛点。我们都曾经历过这样的挫折:有很多想法想要快速记录下来,但手指的速度跟不上思维。或者在手机上打长文本时的痛苦体验。或者在开车时无法安全地发送消息。Wispr Flow 解决的不是一个技术问题,而是一个人类问题。
当我深入了解 Wispr Flow 的用户数据时,一些数字让我震惊。用户平均在 70 个不同的应用和网站中使用它来写入 72% 的字符。每周用户通过 Wispr Flow 说出超过 1 亿个单词。这些数字表明,语音输入正在从一个辅助功能转变为主要的交互方式。
我认为这种转变将带来一系列连锁反应。首先是工作效率的提升。当写作变得像说话一样快速时,我们处理信息和沟通的方式将发生根本性改变。不再需要花费大量时间在键盘上敲击,而是可以将注意力集中在想法本身。这对于知识工作者来说是革命性的改进。
其次是技术访问的民主化。目前,很多人因为不熟悉键盘或者打字速度慢而无法充分利用计算机技术。语音交互降低了技术使用的门槛,让更多人能够享受到数字技术的便利。Wispr Flow 的数据显示,超过 30% 的用户来自非技术背景,这证明了语音交互的普适性。
第三是设备使用方式的改变。当不再需要依赖屏幕和键盘时,我们与技术的交互可以变得更加自由。可以在走路时处理邮件,在做饭时记录想法,在开车时安全地发送消息。这种"环境计算"的愿景正在通过语音交互变为现实。
我也看到了一些潜在的挑战。隐私问题是其中之一。当语音成为主要的输入方式时,如何保护用户的语音数据变得至关重要。还有文化适应的问题:不是所有人都习惯在公共场所说话来操作设备。以及技术成熟度:虽然 Wispr Flow 已经很先进,但在嘈杂环境或者口音很重的情况下,准确率仍然可能下降。
但我相信这些都是可以解决的技术和社会问题。更重要的是,我们正在见证计算机交互历史上的一个转折点。从命令行到图形界面花了几十年时间,但从图形界面到语音界面的转变可能会更快,因为基础技术已经成熟,用户的期望也已经改变。
当我深入思考 Wispr Flow 代表的趋势时,我意识到我们可能正站在一个比大多数人想象的更加重大的转折点上。这不仅仅是从键盘到语音的技术转变,而是从"显示优先"到"语音优先"的世界观转变。在当前的世界里,我们期望看到应用图标、点击界面、导航屏幕、滚动条、标签和按钮。但这些可能很快就会变成过去时代的遗迹,就像我们现在看待命令行界面一样。
我设想的未来是基于语言和情境 AI 的世界。工具将为你量身定制,在你需要的时候为你创建。计算机将真正理解你,而与计算机交互的最大困难——沟通你想要什么——将被彻底解决。现在与 ChatGPT 等系统交互时经常出现的挫折,主要是因为它们不了解你的背景、偏好和个人情境。但如果能够收集这些关于你的情境信息,并将这些系统个性化,那么每个人与自己系统的交互将看起来像一个全新的世界,但对你自己来说,将是最直观的交互方式。
这种转变将带来一些深刻的社会和经济影响。首先是工作技能的重新定义。当语音成为主要的人机交互方式时,语言表达能力将变得比技术操作能力更重要。那些善于清晰表达意图和想法的人将获得显著的技术优势。这可能会改变教育的重点,从教学生如何使用软件转向教学生如何与 AI 有效沟通。
其次是数字鸿沟的重新定义。传统的数字鸿沟主要基于技术访问和操作技能,但在语音时代,鸿沟可能更多基于语言能力、口音和文化差异。虽然 Wispr Flow 支持 104 种语言,但不同语言和方言的支持程度可能存在差异。这需要整个行业在包容性和可访问性方面做出更多努力。
我也看到了隐私和安全方面的新挑战。当语音成为主要的输入方式时,我们的声音数据将变得极其重要和敏感。如何保护这些数据,如何防止语音被恶意利用,如何确保语音 AI 不会被用于监控和控制,这些都是需要解决的重要问题。Wispr Flow 等公司在这方面的责任将远超传统软件公司。
另一个有趣的影响是社交行为的改变。当越来越多的人开始与设备"对话"时,我们的公共空间可能会变得更加嘈杂。但这也可能催生新的社交礼仪和技术解决方案。比如,我们可能需要开发更好的定向音频技术,或者建立在公共场所使用语音设备的社会规范。
从商业角度看,语音优先的世界将重新洗牌整个科技行业。那些能够提供最自然、最智能语音交互的公司将获得巨大优势。这不仅仅是语音识别技术的竞争,更是对用户意图理解、个性化AI、多模态交互等综合能力的竞争。传统的界面设计师可能需要转型为对话设计师,软件架构师需要重新思考以语音为中心的系统设计。
我特别感兴趣的是语音交互对人类认知和学习的影响。当我们不再需要记住复杂的操作步骤,而是可以直接表达目标时,我们的大脑将被解放去思考更高层次的问题。这可能会提高整体的认知效率,让人类能够专注于创造性和战略性思维,而不是被技术操作所束缚。
但我也担心过度依赖语音交互可能带来的风险。如果我们过分依赖AI来理解和执行我们的意图,我们自己的问题解决能力和技术理解能力可能会退化。这就像GPS的普及让很多人失去了读地图和导航的能力一样。我们需要在便利性和能力保持之间找到平衡。
从长远来看,我相信语音交互将成为人机交互的主要方式,但它不会完全取代其他交互方式。不同的任务可能需要不同的交互模式。复杂的数据可视化可能仍然需要大屏幕和精确的手势控制,而创意设计工作可能需要触觉反馈和直接操作。关键是要为每种任务选择最合适的交互方式,而不是强行用一种方式解决所有问题。
Wispr Flow 的成功给我最大的启发是:真正的技术革命往往来自于对现有问题的重新定义,而不是对现有解决方案的渐进改进。他们没有试图做一个更准确的语音识别系统,而是重新定义了什么是"成功的语音交互"。这种思维方式在AI时代尤其重要,因为我们面临的不仅仅是技术问题,更是如何让技术更好地服务于人类的根本问题。
3000 万美元的融资和令人印象深刻的用户数据只是开始。真正的考验是 Wispr Flow 能否从一个优秀的产品演进为一个改变行业的平台。他们面临的挑战是巨大的:需要在保持产品质量的同时快速扩展,需要在大科技公司的竞争中保持优势,需要在技术快速演进的环境中持续创新。但基于我对团队背景和技术深度的了解,我相信他们有能力应对这些挑战。
更重要的是,Wispr Flow 代表了一种我们急需的技术发展方向:让技术适应人类,而不是让人类适应技术。在一个充斥着复杂界面、繁琐操作和学习曲线陡峭的软件世界里,语音交互提供了一条回归人性化的道路。当我们能够像与朋友对话一样与计算机交流时,技术将真正成为增强人类能力的工具,而不是阻碍。
我预测,五年后我们回顾今天,会发现 2025 年是人机交互历史上的一个关键转折点。就像我们现在很难想象没有触摸屏的智能手机一样,未来的年轻人可能很难理解为什么我们曾经需要记住这么多快捷键和菜单位置。键盘不会完全消失,就像命令行界面至今仍在某些场景下使用一样,但它将从主角变成配角。
语音的时代已经到来,而 Wispr Flow 正在书写这个时代的开篇。这不仅仅是一个产品的成功,而是一个关于技术如何变得更加人性化的故事。在一个越来越数字化的世界里,最成功的技术将是那些让我们感觉更加人性化的技术。Wispr Flow 正在朝着这个方向努力,而我们所有人都将从中受益。
最终,我认为语音交互的真正价值不在于技术本身,而在于它能够让技术变得更加人性化。当机器能够理解人类的自然语言时,技术的门槛就会大幅降低,更多的人能够享受到技术带来的便利。这是一个让技术民主化的机会,也是一个让人类与机器关系更加和谐的机会。Wispr Flow 只是这个转变的开始,未来还有无限可能。
最后交个朋友,我自己是一个连续创业者,CS技术背景出身,做过教育和SaaS的创业,并在过去两年担任了25+公司的海外产品与增长顾问,对产品和运营增长都很擅长。
我之前写过关于AI coding的文章:
1.Vibe coding第一笔收购案,独立开发者6个月零融资,实现单月近20万美金利润,8000万美金被收购
2.首次揭秘:Cursor技术团队内部深度分析如何训练出超越人类的编程AI agent
3.美国红杉独家专访Open AI Codex团队:从代码自动补全到异步自主代理,编程正在被彻底重新定义
4.深度分析Lovable:拆解6个月实现5000万美金ARR的方法论
5.a16z重磅预判:AI时代正在重写开发逻辑,这9个新范式将决定下一个技术十年
6.融资2000万美金,打造每个企业专属的AI coding大脑
7.从濒临破产到被a16z投资,这款vibe coding产品靠一条推文起死回生
9.融资700万美金,Mem华人联创新项目,用Vibe coding重构电脑
10.揭秘Windsurf:OpenAI为何想要30亿美金收购它?
11.深度分析|AI Coding的未来与Replit的崛起
文章来自于微信公众号“深思圈”。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】Whisper是由openai出品的语音转录大模型,它可以应用在会议记录,视频字幕生成,采访内容整理,语音笔记转文字等各种需要将声音转出文字等场景中。
项目地址:https://github.com/openai/whisper
在线使用:https://huggingface.co/spaces/sanchit-gandhi/whisper-jax
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner