「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

9186点击 2026-04-28 10:32

动动嘴就能指挥你的电脑干活了！

朋友们，现在要写个代码、处理几个文件连字都不用打啦。

你端着咖啡，靠在阳台椅子上，对着胸前一个硬币大小的麦克风说——

帮我整一个用户登录模块呗，手机号验证码、密码登录、微信登录都得有。安全这块注意下，输错3次就锁10分钟，密码记得加密存。接口返回的格式统一一下，顺便把日志和异常捕获也加上。

然后你喝了口咖啡，屏幕上就已经跑出了完整的代码框架，接口文档自动生成，测试用例一条没落。

这就是最近流行的Voice Working。

从此以后，嘴巴就是你的键盘。

这次的语音输入

跟你想的不一样

最近，TRAE SOLO为了抓Voice Working这波趋势，居然和Insta360的麦克风Mic Air联名推出了一款套装。

我们拿到了这套组合，完整体验了一把。

「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

相比起来，大多数语音转文字工具，本质上干的是「听写」的活儿。你说什么，它就原封不动地记什么。最后你看着一屏幕的语气词和断句混乱的文字，还得花时间自己整理，等于白忙活。

但TRAE SOLO完全不一样。

你说一堆口水话，智能结构化转录会帮你整理成结构清晰的可执行指令。

你说错了改口，语义理解与自动修正能识别你的自我纠正，只保留最终结论。

你说「调那个Skill」，功能语音直调就能帮你一句话切过去。

具体怎么个事，咱们来看一波实测。

说一大段，它全接住，连Skill都调好了

比如你在工位上坐累了，想站起来走一走，同时把代码搞定。

只需要在领口磁吸上一枚硬币大小的Mic Air。它只有7.9克，戴上之后几乎感觉不到它的存在。

「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

来回踱步时，脑子里转着一段代码，边想边说：

嗯你看一下这段Python代码啊，就是那个do_stuff函数，太乱了真的，啥都塞一块了，帮我重构一下吧。我大概说一下要求哈，先把这个大函数拆开，嗯，拆成三个吧，一个专门负责请求数据的、一个处理数据做分级的、还有一个写数据库加记日志的。不对，日志单独拆出来，拆成四个。就是职责分清楚点，别全堆一起。然后那个错误处理太乱了，到处都是try except和print，统一一下，改成自定义异常往外抛，哦对了，改成async await异步的，requests换成aiohttp那种。还有啊，注释加上，type hints加上，变量名别叫r、d、f这种鬼看得懂的名字，规范一点。那个score > 60写了两遍，SQL拼接也有注入风险，这些冗余的和有问题的逻辑都清理掉，参数化查询搞一下。对了单元测试也补上，pytest就行，差不多就这些。用Plan模式帮我规划一下。

「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

这么长的口喷输出，连续说了好几分钟，中间没有一次断连。

值得一提的是，Mic Air传输几乎零延迟。

TRAE SOLO 一下子就能抓住重点，立即总结出结构化可以执行的指令。

所有英文的专业名词全部抓准。

「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

接着，TRAE SOLO就会使用指令中提到的Plan模式，开始疯狂输出。

「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

十分钟后再一看电脑，代码已经跑完了，就等你验收。

「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

这里有个细节，我们说完「拆成三个」之后，又改成「不对，拆成四个」。

如果是传统的语音转文字工具，就会把前后两个版本都保留下来，AI不知道该听哪句。

而TRAE SOLO则能识别这种自我修正，自动保留最终结论，删掉被推翻的信息。说错了没关系，AI只留结论。

多端协同，任务不中断。你的踱步思考时间，变成了生产力。

除了改代码，TRAE SOLO还能帮你处理日常工作中的所有类型文件。

比如「帮我写个脚本调用FFmpeg，把这些视频批量转成H.265的1080p，音频提取出来存成MP3。对了，视频左下角把文件名印上去当水印，省得我弄混。调用那个批量处理的Skill。」

「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

TRAE SOLO生成脚本、自动执行。

很快，不仅MP3和脚本完美完成，处理后的视频水印也都能按照要求加上去。

同样的场景，还可以用来批量重命名文件、批量压缩图片、批量加水印。以前需要找各种小工具拼凑的流程，现在一句话搞定。

「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

值得一提的是「调用那个批量处理的Skill」这句，和前面重构代码时说的「用Plan模式」一样，这是TRAE SOLO的功能语音直调能力。

切模式、调Skill、换模型，不用找菜单，语音指令模糊匹配，开口就行。

东一句西一句，它全听懂，还理成清单

写代码、处理文件，这些都是手头上的活儿。但工作中还有一类更日常的场景：老板突然甩过来的需求。

有个场景大家肯定不陌生。老板开会的时候脑子一转，冒出个想法，散会立马要结果。

现在，我们推门出来就可以趁热把老板的话复述一遍：

赶紧看一下用户反馈，大家都在抱怨啥，什么问题比较集中，最好能看出个比例来。反馈特别多的那种要单独拎出来……

TRAE SOLO拿到这段话之后，首先做的是口语清洗。语气词、重复、没说完的半句话，全部自动过滤。你拿到的是一段干净的、可以立刻交给AI执行的文本。

接下来，就是语义理解能力发威了。它不只是去掉噪音，而是真正听懂了你在说什么。

你说「反馈特别多的那种要单独拎出来」，它理解为高频问题提取。你说「有些人就是提个建议，有些是真用着不爽了」，它归纳为情感分类维度，建议类和负面体验类分开处理。

这些都是大白话到专业任务的语义跃迁，不是简单的语音转文字能做到的。

最终整理好的任务清单，可以说是既清晰又简洁：

分析用户反馈内容，按问题类型聚类并计算比例，提取高频问题单独标注，区分用户态度，生成含柱状图和饼图的Markdown报告，数据来源为用户上传的附件。

「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

算下来，从开完会到出结果，大概三五分钟就搞定了。

输出的分析报告，从内容到图表，都相当丰富、细致，基本上是可以拿来就用的水平。

「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

并且，所有结果都被自动存到了本地文件夹里，随时可以取用。

「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

现在，不用再抓耳挠腮地去回忆了，想到就开口说：

我要梳理一下AI Coding赛道，正好Cursor最近新闻挺多的。你帮我把核心功能、用户体验、商业模式这几块拆一下，补补竞品，然后做个对比表格，维度的话就功能差异、用户画像、怎么收费的……最后帮我总结一下壁垒在哪，还有潜在风险，模型依赖啊留存啊这些。

同样，口语清洗自动完成，「维度的话就」「模型依赖啊留存啊这些」这些口语碎片被过滤掉了。

另外，Cursor、AI Coding这些随口就蹦出来的英文，TRAE SOLO也一个没漏，中英夹杂说到底也能跟得上。

语义理解层面，它把一段意识流拆成了三个清晰的任务模块：

Cursor核心功能/体验/商业模式拆解、3-5个竞品对比表格（含功能差异、用户画像、收费模式、近两版本更新）、壁垒总结与风险建议。

刚说完，研究框架直接出来了。

就连前几天600亿美元被马斯克买断期权这事，都给你分析得明明白白的。

「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

我们最后只需要再过一遍结果、调调细节，就可以交差了。

「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

周围再吵，它只听你说，噪音一键消了

到这儿你可能会说，安安静静对着电脑说话，当然好使。那要是周围乱成一锅粥呢？

比如坐在网约车上，突然接到一个紧急需求。司机在放音乐，导航在播报，外面还有喇叭声。

这要是用笔记本内置麦克风，声音基本就全混一起了。

但现在，夹上Mic Air直接开口就行。

「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

它具备48kHz采样率和全向拾音的能力，轻声说句指令都能精准捕捉。外加一键AI降噪，背景噪音几乎都能被压掉，只留人声。

有了这段清晰的语音，TRAE SOLO很快就处理成了干净的Prompt：

帮我写份PRD，明天上午跟研发需求评审用。这个功能的核心流程是：用户注册登录后创建项目，邀请同事协作，完成后导出报告。界面包含首页、项目列表、编辑页及设置页。需考虑网络超时、权限不足等异常情况，并设计埋点（分为用户行为类和页面维度曝光类）。

到家之后时候，一份结构完整的PRD已经在屏幕上等着你了。在Word里下载下来，稍微润色就能发给研发评审。

「动嘴办公」火起来了！TRAE SOLO让打工人张嘴就能干活

不得不说，TRAE这次确实是把语音办公当一条完整链路来打磨，从声音采集到智能转录，每一环都不掉链子。

而且这条路还在往前走。

TRAE SOLO预计4月底上线实时问答互动，你可以像跟同事聊天一样，和AI语音讨论问题，实时对话、实时转录。

Voice Working

正在发生的工作方式革命

今年以来，语音AI赛道突然变得异常拥挤。

IBM和Deepgram官宣合作，把语音能力嵌入企业级AI平台。

OpenAI的gpt-realtime持续迭代，实时语音对话已经做到了近乎人类水平的流畅度。

Google发布了Gemini 3.1 Flash Live，一个端到端的原生音频模型，能感知语气、语速、情绪，还支持90多种语言。

这些动作背后指向同一个趋势：语音正在从「辅助输入」升级为「主力交互」。

过去我们对语音交互的印象，大概还停留在对着手机喊「Hey Siri帮我定个闹钟」的阶段。

但现在的Voice Working，远不是这么简单的事。

它背后的核心逻辑是，人类最自然的表达方式就是说话，打字其实是一种「被迫的翻译」。

脑子里想的是一段连贯的思路，但你得把它拆成一个个字符，用手指一个个敲出来。

这中间的信息损耗和效率损失，远比我们以为的要大。

当语音识别的准确率足够高、语义理解足够深、响应速度足够快的时候，「说着干活」就不再是一个噱头。

而TRAE，是在AI Coding领域率先把这件事做到产品级的玩家。

下一个生产力入口是嘴

随着TRAE SOLO的智能体已经能够自主拆解任务、调用工具、完成执行，人类的角色就从「操作者」变成了「决策者」。

决策者最自然的表达方式是什么？

是说话。

截至目前，TRAE的全球注册用户超过600万，月活突破160万，覆盖近200个国家和地区。

这一次语音输入功能的上线，加上和Insta360的联名硬件合作，等于把Voice Working从概念变成了一套完整的解决方案。软件端有智能转录、语义理解和功能直调，硬件端有专业级的无线收音保障。

今天，TRAE SOLO语音输入功能正式上线。

试试看，张嘴就能干活的感觉，用过就回不去了。

参考资料：

https://www.trae.cn/

文章来自于微信公众号 "新智元"，作者 "新智元"

AI新闻 AI硬件 AI麦克风 TRAE SOLO

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales