「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活
8234点击    2026-04-28 10:32

动动嘴就能指挥你的电脑干活了!


朋友们,现在要写个代码、处理几个文件连字都不用打啦。


你端着咖啡,靠在阳台椅子上,对着胸前一个硬币大小的麦克风说——


帮我整一个用户登录模块呗,手机号验证码、密码登录、微信登录都得有。安全这块注意下,输错3次就锁10分钟,密码记得加密存。接口返回的格式统一一下,顺便把日志和异常捕获也加上。


然后你喝了口咖啡,屏幕上就已经跑出了完整的代码框架,接口文档自动生成,测试用例一条没落。


这就是最近流行的Voice Working。


从此以后,嘴巴就是你的键盘。


这次的语音输入


跟你想的不一样


最近,TRAE SOLO为了抓Voice Working这波趋势,居然和Insta360的麦克风Mic Air联名推出了一款套装。


我们拿到了这套组合,完整体验了一把。


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


相比起来,大多数语音转文字工具,本质上干的是「听写」的活儿。你说什么,它就原封不动地记什么。最后你看着一屏幕的语气词和断句混乱的文字,还得花时间自己整理,等于白忙活。


但TRAE SOLO完全不一样。


你说一堆口水话,智能结构化转录会帮你整理成结构清晰的可执行指令。


你说错了改口,语义理解与自动修正能识别你的自我纠正,只保留最终结论。


你说「调那个Skill」,功能语音直调就能帮你一句话切过去。


具体怎么个事,咱们来看一波实测。


说一大段,它全接住,连Skill都调好了


比如你在工位上坐累了,想站起来走一走,同时把代码搞定。


只需要在领口磁吸上一枚硬币大小的Mic Air。它只有7.9克,戴上之后几乎感觉不到它的存在。


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


来回踱步时,脑子里转着一段代码,边想边说:


嗯你看一下这段Python代码啊,就是那个do_stuff函数,太乱了真的,啥都塞一块了,帮我重构一下吧。我大概说一下要求哈,先把这个大函数拆开,嗯,拆成三个吧,一个专门负责请求数据的、一个处理数据做分级的、还有一个写数据库加记日志的。不对,日志单独拆出来,拆成四个。就是职责分清楚点,别全堆一起。然后那个错误处理太乱了,到处都是try except和print,统一一下,改成自定义异常往外抛,哦对了,改成async await异步的,requests换成aiohttp那种。还有啊,注释加上,type hints加上,变量名别叫r、d、f这种鬼看得懂的名字,规范一点。那个score > 60写了两遍,SQL拼接也有注入风险,这些冗余的和有问题的逻辑都清理掉,参数化查询搞一下。对了单元测试也补上,pytest就行,差不多就这些。用Plan模式帮我规划一下。


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


这么长的口喷输出,连续说了好几分钟,中间没有一次断连。


值得一提的是,Mic Air传输几乎零延迟。


TRAE SOLO 一下子就能抓住重点,立即总结出结构化可以执行的指令。


所有英文的专业名词全部抓准。


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


接着,TRAE SOLO就会使用指令中提到的Plan模式,开始疯狂输出。


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


十分钟后再一看电脑,代码已经跑完了,就等你验收。


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


这里有个细节,我们说完「拆成三个」之后,又改成「不对,拆成四个」。 


如果是传统的语音转文字工具,就会把前后两个版本都保留下来,AI不知道该听哪句。


而TRAE SOLO则能识别这种自我修正,自动保留最终结论,删掉被推翻的信息。说错了没关系,AI只留结论。


多端协同,任务不中断。你的踱步思考时间,变成了生产力。


除了改代码,TRAE SOLO还能帮你处理日常工作中的所有类型文件。


比如「帮我写个脚本调用FFmpeg,把这些视频批量转成H.265的1080p,音频提取出来存成MP3。对了,视频左下角把文件名印上去当水印,省得我弄混。调用那个批量处理的Skill。」


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


TRAE SOLO生成脚本、自动执行。


很快,不仅MP3和脚本完美完成,处理后的视频水印也都能按照要求加上去。


同样的场景,还可以用来批量重命名文件、批量压缩图片、批量加水印。以前需要找各种小工具拼凑的流程,现在一句话搞定。


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


值得一提的是「调用那个批量处理的Skill」这句,和前面重构代码时说的「用Plan模式」一样,这是TRAE SOLO的功能语音直调能力。


切模式、调Skill、换模型,不用找菜单,语音指令模糊匹配,开口就行。


东一句西一句,它全听懂,还理成清单


写代码、处理文件,这些都是手头上的活儿。但工作中还有一类更日常的场景:老板突然甩过来的需求。


有个场景大家肯定不陌生。老板开会的时候脑子一转,冒出个想法,散会立马要结果。


现在,我们推门出来就可以趁热把老板的话复述一遍:


赶紧看一下用户反馈,大家都在抱怨啥,什么问题比较集中,最好能看出个比例来。反馈特别多的那种要单独拎出来……


TRAE SOLO拿到这段话之后,首先做的是口语清洗。语气词、重复、没说完的半句话,全部自动过滤。你拿到的是一段干净的、可以立刻交给AI执行的文本。


接下来,就是语义理解能力发威了。它不只是去掉噪音,而是真正听懂了你在说什么。


你说「反馈特别多的那种要单独拎出来」,它理解为高频问题提取。你说「有些人就是提个建议,有些是真用着不爽了」,它归纳为情感分类维度,建议类和负面体验类分开处理。


这些都是大白话到专业任务的语义跃迁,不是简单的语音转文字能做到的。


最终整理好的任务清单,可以说是既清晰又简洁:


分析用户反馈内容,按问题类型聚类并计算比例,提取高频问题单独标注,区分用户态度,生成含柱状图和饼图的Markdown报告,数据来源为用户上传的附件。


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


算下来,从开完会到出结果,大概三五分钟就搞定了。


输出的分析报告,从内容到图表,都相当丰富、细致,基本上是可以拿来就用的水平。


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


并且,所有结果都被自动存到了本地文件夹里,随时可以取用。


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


现在,不用再抓耳挠腮地去回忆了,想到就开口说:


我要梳理一下AI Coding赛道,正好Cursor最近新闻挺多的。你帮我把核心功能、用户体验、商业模式这几块拆一下,补补竞品,然后做个对比表格,维度的话就功能差异、用户画像、怎么收费的……最后帮我总结一下壁垒在哪,还有潜在风险,模型依赖啊留存啊这些。


同样,口语清洗自动完成,「维度的话就」「模型依赖啊留存啊这些」这些口语碎片被过滤掉了。


另外,Cursor、AI Coding这些随口就蹦出来的英文,TRAE SOLO也一个没漏,中英夹杂说到底也能跟得上。


语义理解层面,它把一段意识流拆成了三个清晰的任务模块:


Cursor核心功能/体验/商业模式拆解、3-5个竞品对比表格(含功能差异、用户画像、收费模式、近两版本更新)、壁垒总结与风险建议。


刚说完,研究框架直接出来了。


就连前几天600亿美元被马斯克买断期权这事,都给你分析得明明白白的。


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


我们最后只需要再过一遍结果、调调细节,就可以交差了。


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


周围再吵,它只听你说,噪音一键消了


到这儿你可能会说,安安静静对着电脑说话,当然好使。那要是周围乱成一锅粥呢?


比如坐在网约车上,突然接到一个紧急需求。司机在放音乐,导航在播报,外面还有喇叭声。


这要是用笔记本内置麦克风,声音基本就全混一起了。


但现在,夹上Mic Air直接开口就行。


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


它具备48kHz采样率和全向拾音的能力,轻声说句指令都能精准捕捉。外加一键AI降噪,背景噪音几乎都能被压掉,只留人声。


有了这段清晰的语音,TRAE SOLO很快就处理成了干净的Prompt:


帮我写份PRD,明天上午跟研发需求评审用。这个功能的核心流程是:用户注册登录后创建项目,邀请同事协作,完成后导出报告。界面包含首页、项目列表、编辑页及设置页。需考虑网络超时、权限不足等异常情况,并设计埋点(分为用户行为类和页面维度曝光类)。


到家之后时候,一份结构完整的PRD已经在屏幕上等着你了。在Word里下载下来,稍微润色就能发给研发评审。


「动嘴办公」火起来了!TRAE SOLO让打工人张嘴就能干活


不得不说,TRAE这次确实是把语音办公当一条完整链路来打磨,从声音采集到智能转录,每一环都不掉链子。


而且这条路还在往前走。


TRAE SOLO预计4月底上线实时问答互动,你可以像跟同事聊天一样,和AI语音讨论问题,实时对话、实时转录。


Voice Working


正在发生的工作方式革命


今年以来,语音AI赛道突然变得异常拥挤。


IBM和Deepgram官宣合作,把语音能力嵌入企业级AI平台。


OpenAI的gpt-realtime持续迭代,实时语音对话已经做到了近乎人类水平的流畅度。


Google发布了Gemini 3.1 Flash Live,一个端到端的原生音频模型,能感知语气、语速、情绪,还支持90多种语言。


这些动作背后指向同一个趋势:语音正在从「辅助输入」升级为「主力交互」。


过去我们对语音交互的印象,大概还停留在对着手机喊「Hey Siri帮我定个闹钟」的阶段。


但现在的Voice Working,远不是这么简单的事。


它背后的核心逻辑是,人类最自然的表达方式就是说话,打字其实是一种「被迫的翻译」。


脑子里想的是一段连贯的思路,但你得把它拆成一个个字符,用手指一个个敲出来。


这中间的信息损耗和效率损失,远比我们以为的要大。


当语音识别的准确率足够高、语义理解足够深、响应速度足够快的时候,「说着干活」就不再是一个噱头。


而TRAE,是在AI Coding领域率先把这件事做到产品级的玩家。


下一个生产力入口是嘴


随着TRAE SOLO的智能体已经能够自主拆解任务、调用工具、完成执行,人类的角色就从「操作者」变成了「决策者」。


决策者最自然的表达方式是什么?


是说话。


截至目前,TRAE的全球注册用户超过600万,月活突破160万,覆盖近200个国家和地区。


这一次语音输入功能的上线,加上和Insta360的联名硬件合作,等于把Voice Working从概念变成了一套完整的解决方案。软件端有智能转录、语义理解和功能直调,硬件端有专业级的无线收音保障。


今天,TRAE SOLO语音输入功能正式上线。


试试看,张嘴就能干活的感觉,用过就回不去了。


参考资料:


https://www.trae.cn/


文章来自于微信公众号 "新智元",作者 "新智元"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales