办公室里对着 AI 说话的人,可能会比用键盘打字的人更早下班

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
办公室里对着 AI 说话的人,可能会比用键盘打字的人更早下班
7550点击    2026-03-07 15:14

去年这个时候,如果你在办公室,原地突然就开始对着电脑说话,一次两次会被人以为是在打电话,三番五次就不禁让人怀疑——工作压力是不是太大了,都开始自言自语了?


但到了今年,可能就是用语音解放双手了。越来越多的员工选择对着屏幕口述,而不是敲键盘。不管是写代码、写方案,还是跟 AI 交流,用说的,开始变得越来越方便。


从「对话」到「操作」


3 月 3 日,Anthropic 向约 5% 的用户推送了 Claude Code 的语音模式。操作极简:在终端输入 `/voice`,按住空格键说话,松手即执行,转录 token 完全免费。


办公室里对着 AI 说话的人,可能会比用键盘打字的人更早下班


语音转文字,早就不是什么新鲜事儿了,但是,Claude Code 不是一个聊天应用——它是一个 AI 编程工具,年化收入在今年 2 月已突破 25 亿美元,两个月内翻倍。


当一个以「写代码」为核心场景的产品开始支持语音输入,它传递的信号是:语音不再是一个「更方便」的选项,而是被严肃对待的生产能力。


Bloomberg 也发现了这个现象,并且走访了纽约销售平台 Clay 的教育负责人 Yash Tekriwal 说,他用语音输入的速度是每分钟 205 个词,打字只有 110 到 120 个。更关键的是,他发现口述的 prompt 质量更高。


办公室里对着 AI 说话的人,可能会比用键盘打字的人更早下班


打字时工程师会写「fix bug」,但说话时会自然地给出更长、更具体的上下文描述。转录创业公司 Wispr 的 CEO Tanay Kothari 把这总结为:「打字时,你的 prompt 就是垃圾。」


200 毫秒,技术的拐点


语音作为生产工具之所以出现已久,却现在才真正可用,背后有一个关键的技术阈值被突破:端到端延迟降到了 200 毫秒以内。


一条完整的语音 AI 链路需要三步——语音转文字(STT)、大语言模型处理(LLM)、文字转语音(TTS)。一年前,这条链路的总延迟在 500 到 800 毫秒,用户能明显感觉到「卡顿」。今年 3 月的多项基准测试确认,这个数字已经被压缩到 200 到 250 毫秒。最典型的是 Deepgram Aura-2(TTS),首字节延迟 90–200ms,支持 7 种语言。


办公室里对着 AI 说话的人,可能会比用键盘打字的人更早下班


200 毫秒是一个什么概念?人类面对面对话中,轮换间隔的中位数大约在 200 到 300 毫秒。这就意味着,AI 语音交互的响应速度已经达到了人类对话的自然节奏。这意味着用户不再需要「等待」AI 回应——对话可以像和真人说话一样流畅地进行。


风水轮流转


曾几何时,语音也是互联网的宠儿。


2011 年,微信上线。它在早期与米聊、飞信的竞争中冒头,一个被反复提及的差异化功能就是语音消息。在智能手机刚刚普及、大量用户尚不熟悉触屏打字的年代,按住说话、松手发送的交互方式几乎是零门槛、直觉性的。


语音消息帮微信在市场打开了缺口,但辉煌并没有持续。随着用户习惯成熟,语音消息逐渐变成了一个被「忍受」多于「喜爱」的功能:60 秒的语音条需要慢慢收听、无法快速浏览、在公共场合不方便播放,还得手忙脚乱地调音量。


微信自己也意识到了这个问题——它先后上线了语音转文字、语音消息进度条拖拽、倍速播放等一系列补救功能,本质上是在承认,


纯语音的信息密度和使用效率,在很多场景下不如文字。


办公室里对着 AI 说话的人,可能会比用键盘打字的人更早下班


语音的用户心智一度跌入低谷。在社交中,发语音甚至成了一种带有压迫感的行为,观感很不好。


然而风水轮流转,AI 的介入让语音的价值结构发生了根本性的变化。过去,语音消息的问题在于:说的人省事了,但听的人要花更多时间去解码——信息的负担从发送方转移到了接收方。而现在,AI 充当了中间层:你对着 AI 说话,AI 把你的语音转化为结构化的文字、代码、指令。


语音的「输入快」优势被保留了,而「输出乱」的劣势被 AI 吸收了。


这也是 Typeless 这样的产品正在验证的逻辑。它们不是在做「语音消息 2.0」,而是让语音回归为一种输入方式——你说话,但对方看到的是整理好的文字。语音不再是一个需要被「忍受」的沟通格式,而是一个被 AI 翻译过的高效输入通道。


办公室里对着 AI 说话的人,可能会比用键盘打字的人更早下班


从微信语音消息到 Wispr、Typeless、Claude Code 语音模式,这条线画出了一个完整的弧线:语音的第一次崛起靠的是低门槛,它的衰落是因为低效率,而它的第二次崛起靠的是 AI 解决了效率问题。同一个技术,运作方式已经完全不同。


一个 77 亿美元的市场


Grand View Research 估算,AI 语音生成市场今年的规模约为 77 亿美元,到 2030 年将达到 218 亿美元。但数字背后隐藏着一个更有趣的问题:技术已经准备好了,人准备好了吗?


Clay 的 Tekriwal 承认,当他最初在开放办公区对着电脑说话时,同事的反应是困惑的,「这是在跟人说话,还是在自言自语?」尽管他的整个团队后来都转向了语音输入,但这个「尴尬期」本身就说明,


语音作为工作界面面临的最大阻力不是技术问题,而是社会规范问题。


办公室里对着 AI 说话的人,可能会比用键盘打字的人更早下班


多伦多投资管理平台 Boosted.ai 经验更能说明问题。该公司去年在平台中加入了语音功能,一个名为 Alfa 的 AI 语音助手,可以朗读投资报告并接受语音指令。大多数机构客户试过让 AI 朗读报告,但


主动对 AI 说话的人少得多


Wispr 的 Kothari 估计,用户从键盘切换到语音大约需要两到三周的适应期。他说了一句很有意味的话:「需要改变的是社会观念——你不是因为对着电脑说话就成了疯子。」


语音 AI 的故事,表面上是一个交互方式的升级——从打字到说话,从键盘到麦克风。但更准确地说,它是一次轮回:


语音从来不缺「自然」的优势,它缺的一直是一个足够聪明的中间层,来弥合「说」和「被理解」之间的鸿沟。2026 年,这个中间层第一次真正就位了。


接下来的问题不再是「语音能不能用」,而是:当说话比打字更高效的时候,我们的工作方式、协作习惯、甚至思考节奏,会被怎样改写?


文章来自于微信公众号 “APPSO”,作者 “APPSO”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales