键盘作为人机交互的主要工具,实质上是一个巨大且不自然的「输入、输出瓶颈」。在「后键盘时代(post-keyboard future)」,语音或许才是最好地交互方式。
几天前,AI 语音输入产品 Wispr Flow 的创始人 Tanay Kothari 在 X 上宣布,Whispr 的 ARR 在 5 个月内,翻了 10 倍。公司估值超过 7 亿美元,总融资达到 8100 万美元。
Wispr Flow 的收入增长非常迅速,自今年 6 月以来,收入环比增长了近 40%。同时,用户在使用 Wispr Flow 一年后的留存率高达 70%。
Tanay Kothari 认为,Wispr Flow 与其他同类语音输入法产品最大的区别在于,理解用户所想、要表达的内容,而不是单纯解决转录的问题。用户真正需要的是「听写」,一个能够理解用户真实意图的智能助理。
「一个真正好用的语音输入产品,不应该是一个孤立的效率工具,而是一个具备全局上下文的智能层,能够记忆上下文,连接不同应用中的信息。」
在与知名投资人 Reid Hoffman 的最新一期对谈中,Tanay Kothari 分享了一款好的 AI 语音产品有哪些关键特点,如何设计产品的用户引导路径、以及未来的语音输入办公是什么样的。
主持人:为什么语音这种交互方式很重要?
Tanay Kothari:我觉得,真正该问的问题应该是:「为什么我们还被键盘困住?」
键盘的出现,本身就是一种用作过渡的「权宜之计」,是为了在计算机还无法真正理解语言的几十年时间里,帮助人们使用技术。但我们已经过了那个阶段了,我们完全可以让人机交互方式变得更加流畅。
键盘这种东西,对很多人来说是难以使用的,尤其是对于老年人、以及阅读障碍患者来说。
主持人:除了速度,你认为人们对说话和打字在思考方式上的真正区别,最大的误解是什么?
Tanay Kothari:当我和很多人讨论听写时,他们会说:「我打字很快。」但对我来说,速度不是最重要的。重要的是,语音输入工具真正的价值在于它能消除你思考时的认知负荷。
当你打字时,你的大脑被迫同时处理两件事:一是创作,产生想法;二是编辑,思考拼写、标点和格式。这两个过程会互相干扰,不断打断你的思路,让你无法进入到一个顺畅的心流状态。
Wispr Flow 的作用,是让你专注能创作。你可以毫无顾忌地把所有想法说出来,把剩下编辑的工作都交给 AI。它就像一个信任的伙伴,帮你处理好所有细节。这是为什么我们的用户反馈最多的,不是节省了多少时间,而是感觉生活轻松多了。
主持人:当输入方式从打字转向语音,我们会有什么损失?有没有哪些场景是语音无法取代的?
Tanay Kothari:当然有,主要在两个非常特殊的场景下。
第一个是当你需要「像素级」的精确性时。比如起草一份极其严肃的法律文件,或者推敲一句广告语,每一个字都需要反复斟酌。在这种极端情况下,键盘作为精细编辑的工具,仍然有其价值。但我们必须承认,这在我们日常沟通中只占极小的一部分。
第二个我认为的例外是写日记。有些人的思维是在书写的过程中展开和厘清的,对他们来说,纸和笔的物理体验无法替代。但对于那些「边说边想」的人来说,语音反而是更好的日记工具。
所以,我不想强迫所有人改变他们的习惯。但在剔除掉这两个小众场景之后,对于我们日常沟通的其他 99% 的事情,我认为从打字转向语音,都是一次纯粹的、没有任何损失的升级。
主持人:你们很关心「零编辑率」这个指标。苹果、谷歌、OpenAI 的这个比例大约在 5% 或 10%,但 Wispr Flow 在 85%,怎么做到的?
Tanay Kothari:现在这个数字已经是 89% 了,因为我们发布了自研的语音模型,能够通过个性化的语音识别更好地理解用户,降低用户在通过 Flow 口述后需要进行的编辑次数。

其实答案其实很简单:在此之前,所有人都在解决一个错误的问题。
一个问题是「转录」(transcription),比如你需要电影字幕,那么所有说出的话都必须一字不差地记录下来。另一个问题是「听写」(dictation),也就是我说一些话,希望它以我想要的方式被写下来。
所有人都试图解决第一个「转录」问题,然后想当然地认为他们也解决了第二个问题。但人类说话的方式和写作的方式是截然不同的。一旦你意识到这个极其明显的事实,你再去看所有这些工具,就会发现它们对于这个特定场景来说,都有点「垃圾」。
Wispr Flow 一直在做的一件事是就是「零编辑率」。今年年初,这个比例大约是 45%;到现在,是 89%。同时,用户从看到 Wispr 生成信息到按下发送的平均时间只有半秒。人们甚至不看 Wispr 写了什么,因为相信这个系统能做对。
我在思考未来 5 年 Wispr Flow的发展方向时,我认为我们会从手机和笔记本电脑,转向一个拥有沉浸式计算设备的世界:智能眼镜、智能戒指等等。未来的一个挑战是,将没有屏幕来检查和修改你说的话。所以,这是我们从一开始就想彻底解决的问题,也是 Wispr 最初的使命,成为一个可以绝对信任、无处不在的助理。
主持人:这个洞察特别好,如果你用过新一代的 AI,你会发现提示词越丰富,效果越好。如果人们能轻松地给出丰富的提示词,这是语音的优势所在。
除了写邮件,用语音来跟 AI 协作,是一种什么样的体验?
Tanay Kothari:我们看到很多公司的 CTO 和工程副总裁,现在甚至在内部强制推行 Wispr Flow,是因为能够极大提升他们团队给 AI 写 Prompt 的质量。 举个例子:一个工程师,通常有点懒。他在 Cursor 里写代码遇到 bug,用键盘可能就敲了两个字:『修复 bug』。AI 看到这个指令直接懵了,它什么都不知道,自然也修不好。
但换成用 Whisper,情况就完全不同了。他会很自然地开始自言自语:嘿,我试了这个方法,然后报了这个错,嗯…我怀疑是不是我五天前做的那个改动导致的…等等。滔滔不绝地讲了 30 秒,其实花的时间跟打字差不多,但 AI 获得了海量的上下文,几乎每次都能一次性解决问题。
其实,世界上大多数人都有点不耐烦,有点懒,他们不想打出完整的提示词。语音解决了这个问题,通过给 AI 提供它所需要的大量上下文,人们对结果的满意度会高得多。
主持人:为什么 Wispr 是一家独立公司,而不是苹果、谷歌旗下某个产品的功能?
Tanay Kothari:我的看法是,在打造 Wispr 的过程中,我们正在挑战很多规范,包括人们构建技术的核心方式,以及技术本身被构建的核心方式。
这种挑战,在谷歌或苹果内部几乎是不可能的,因为官僚主义和体系的存在。想象一下,你走进苹果公司,说:「Siri 太烂了,我们需要解散 6000 人的这个团队,我要从零开始打造一个更好的 Siri。」
主持人:用户是从哪个瞬间开始,突然意识到键盘已经过时,语音才是未来的?顿悟是怎么发生的?
Tanay Kothari:首先得承认,让人们相信语音是很难的。因为怀疑者通常有三种:第一种是打字高手,他们对自己的键盘速度非常自信;第二种是 Siri 受害者,任何在过去十年里用过 Siri 的人都懂我在说什么;第三种是从来没见过真正好用的语音产品,所以对接受新的 AI 技术抱有抵触情绪的。
我们的方法也很简单:用一次无可挑剔的初次体验,创造第一个「顿悟时刻」。
我总是对新用户说:「给我一分钟。」他们第一次使用 Wispr Flow,随便说点什么,然后在半秒之内,屏幕上就出现了完美的文本,不仅内容准确,连他们中途的修改和犹豫都被智能地处理掉了。当他们亲眼看到这一幕时,那种冲击力是巨大的。那就是第一个「顿悟时刻」。通常五分钟后,他们就会开始到处安利了。
第二个「顿悟时刻」是让它真正为你所用,解决实际问题。当他们相信「语音可行」后,我们会问:「你生活中最头疼的事是什么?是不是每天被 50 封未读邮件淹没?」然后,我们帮他们建立第一个基于语音的工作流。当他们第一次用语音轻松搞定了一件长期困扰自己的事情时,语音就从「很酷的玩具」一个变成了「离不开的工具」。这时候,他们才算真正养成了习惯,我称之为被「语音征服」(voice-pilled)了。
第三个顿悟时刻是,键盘的使用率。我们内部有一个核心指标,叫「Wispr Flow vs 键盘使用率」。随着用户越来越习惯语音,他们的键盘使用率会逐渐下降,直到最后稳定在 5% 以下。对我来说,当键盘在你生活中几乎消失时,这才是真正的行为改变。

主持人:有没有一些特定的功能或体验,能促成这种转变,让人们觉得离不开语音了?
Tanay Kothari:就是上边提到的「Wispr Flow vs 键盘使用率」。你会看到 Wispr Flow 的使用曲线一路飙升。我们统计过,在所有用户中,平均 72% 的文本输入是通过 Wispr Flow 完成的。你想想看,在整个计算机历史上,还从来没有东西能真正替代陪伴我们 150 年的键盘。但现在,这件事正在发生。
主持人:未来的语音办公环境会是什么样的?
Tanay Kothari:我没有一个完美的答案,但我看到了一些有趣的方向。
在我们观察到的一些已经全面采用 Wispr 的办公室里,每个人桌上都有一个可以靠近嘴边的鹅颈麦克风,整个办公室上百人都在对着这些小麦克风轻声细语。为了应对这个场景,我们还专门开发了相关功能,让你用旁边的人根本听不见的音量也能精准输入。
我认为这是公司采纳语音的第一步。现在我们去财富 500 强的公司部署 Wispr 时,就会给他们配套发这些麦克风,便于他们在开放式办公室里使用。
主持人:你认为语音 AI 产品普及的引爆点在哪里?大概需要多长时间?
Tanay Kothari:如果任其自然发展,可能会很慢。但我们不想等那么久。我们之所以组建这个优秀的团队,每周六天都在办公室里工作,就是想在未来两年内看到这一切发生。
我希望在两年后,当你去咖啡馆,看到有人对着笔记本电脑说话时,你的反应会是:「哦,他只是在用 Wispr。」我坚信这对人类来说是绝对有益的,我想尽快把它交到尽可能多的人手中。
主持人:当打字的阻力消失后,人们表达的内容,比如情感的真实性或创造力,会发生变化吗?
Tanay Kothari:人们会变得友善得多,这可能让你很惊讶。我们做过一个实验,让一半的销售团队用语音回复客户。结果,客户普遍反映,这组销售是他们遇到过「最有人情味的」。因为打字是冰冷的、机械的,而说话会不自觉地带上你的个性和温度。客户感觉自己是在和一个真实的人对话,而不是一个冷冰冰的销售机器。
我自己也是个例子。我以前是个「短信困难户」,我的收件箱里总是有很多未读信息。但用了 Wispr 后,认知负荷消失了,回复别人变得更容易了。甚至被他们开玩笑说「话太多了」。这说明语音正在帮助我们。
主持人:你认为语音计算会重塑人与人之间的连接吗?
Tanay Kothari:绝对会。当我们从面对面交谈,到用最精简的文字发短信,我们其实在沟通中丢失了很多东西。我认为我们失去了一部分人性,我希望语音能帮我们把那些个性和情感带回来。
我对 Wispr 的愿景是,它不仅能传达你的思想,还能更深一层,去理解对方的感知方式,然后更好地组织语言,让对方更容易理解。因为很多时候,你说的是一回事,别人听到的却是另一回事。所以我认为这深入到了沟通的本质,而也是是我们正在解决的重大问题之一。
文章来自于“Founder Park”,作者 “Founder Park”。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0