字节杀入万亿手机市场底层!
智东西12月1日报道,今日,豆包手机助手以技术预览版正式亮相,搭载该功能的努比亚(nubia)M153工程样机同步开售。

▲nubia M153豆包手机助手技术预览版
这是首个豆包和手机厂商在操作系统层面合作的手机AI助手,其核心在于让AI直接控制系统、跨App执行任务、与硬件按键深度联动,以接近“AI原生手机”的实际形态落地。
实际演示视频显示,豆包手机助手已能在语音和侧边AI键唤醒下直接读取屏幕内容、对照片进行多模态理解、自动完成跨平台比价下单、远程控制汽车、在企业系统发起请假或报销流程,并在激活记忆功能后以更少询问完成复杂链式任务。

▲AI键唤醒、视频通话、语言交互
同时,豆包手机助手团队强调并没有开发手机的计划,而是在和多家手机厂商推进手机助手的合作落地。
豆包手机助手技术预览版发布后,中兴通讯A股早盘震荡拉升,截至发稿触及涨停,最新股价报46.30元/股,涨幅约10%。港股同样大幅上涨,最新股价报35.08港元/股,涨幅约11.65%。

豆包首次把大模型嵌入手机系统底层
从语音助手变成“操作助手”
豆包手机助手将豆包大模型融入原生交互体系,在手机使用的任意环节实现直接调用。
用户不仅可以通过豆包App,也可以通过系统级语音、侧边AI键、耳机实现唤醒,并且在浏览照片或页面时无需复制粘贴,助手便能理解屏幕内容,“这个景点在哪”或“从什么视角拍摄”这样的问句会直接返回地点和拍摄视角。

豆包手机助手将语音通话、视频通话、屏幕共享等原豆包生态能力嵌入手机系统层,双击AI键即可进入实时对话,可以对儿童绘本进行双语讲读。

在图像处理上,助手与相册原生整合,用户一句“把照片里的人和杂物剃掉”即可生成清晰的风景图,无需使用图像后处理软件。

相较于现有“手机+AI助手App”的模式,这意味着大模型一次性获得系统权限,成为手机执行层的一部分,而非仅提供自然语言回答。
跨应用执行真实任务成为重点能力
豆包在购物、出行、办公等场景中
实现系统级自动化
豆包手机助手的核心指向“执行任务”,即AI直接替用户完成复杂多步骤操作。
豆包手机助手可通过一句“帮我把这瓶洗发水在我所有购物软件上比价并选最便宜的下单”完成淘宝、京东、拼多多、抖音商城比价,返回最低价格,并要求用户在涉及支付时手动确认,避免越权行为。

在另一个场景中,豆包手机助手在用户仅以自然语言描述需求的情况下,自动查询播客更新并加入播放列表,同时远程打开汽车前备箱、预订餐厅、在飞书上提交请假申请和差旅报备、预订周一早班高铁车票。

日常使用中,豆包手机助手还可批量安装App、同步物流、自动领券、整理文件,甚至回答“我的取件码是多少”“车停在哪里”这种已在现实中发生的信息检索。

豆包手机助手把任务执行与上下文记忆结合,在授权后将对话转换成本地文本,自动识别纪要和关键时间点并生成提醒,使其行为从“按指令执行一次操作”进化为“依据用户长期偏好持续完成任务”,这是现阶段手机AI应用尚未普遍实现的能力。
Pro模式引入工具链与记忆数据
只需一句话即可完成多目标执行
面向更复杂场景,豆包展示了正在研发的操作手机Pro模式,它在大模型推理之外调用Agent与工具链,执行效率更高,触发过程中的询问频率也进一步降低。
在实际演示中,用户仅输入一句“下个月去巴黎,把社媒收藏的餐厅标记到地图,再看第二天哪个博物馆有我喜欢的展览,在旅行平台订一张上午10点的票并整理到备忘录”,助手便自动完成餐厅在地图标注、基于记忆信息判断用户偏好梵高并锁定奥赛美术馆、无需再次确认时间即可完成订票,并将全过程记录整理到备忘录。

同时,豆包手机助手团队提醒,目前大模型能力仍存在不确定性。在隐私上,豆包手机助手将严格脱敏处理,相关数据使用与保存方式已在豆包手机助手官网隐私白皮书中披露。
努比亚M153承担早期体验载体
并不对标商业旗舰手机
豆包手机助手明确提到,豆包并不研发手机,本次硬件由合作伙伴中兴努比亚(nubia)提供,作为体验豆包手机助手的工程样机,售价为3499元。

该机采用6.78英寸LTPO屏幕,搭载高通骁龙8至尊版移动平台,具备16GB内存、512GB存储,后置三枚5000万像素摄像头和6000mAh电池,支持90W有线充与15W无线充,机身重量约212克。

官方强调,相比主流旗舰机,M153在软件功能与图像能力等方面存在差距,但仍可作为日常主力机使用。

软件方面,自发售起至2026年第一季度末将保持约每两周一次更新,节假日除外,后续节奏另行通知。
对于下一步落地路径,豆包方面称,正与多家手机厂商推进合作,第三方开发者如需将自身服务接入豆包手机助手,可通过官网联系,更多合作信息将在合适时机披露。
结语:AI手机时代的入口被撕开
过去两年,AI手机的探索更多将模型能力被限制在问答、润色、总结等轻交互任务中,难以对手机的使用方式产生实质改变。
而豆包手机助手选择了一条不同路径:直接进入操作系统,与厂商共同改造系统权限与操纵流程,把“生成回答”延伸为“执行任务”,让AI能够在真实使用环境中调度系统资源、跨应用完成行为。
当手机核心能力由AI定义,而手机品牌只负责硬件与入口设计时,手机厂商在下一轮竞争中能否保持主动,或将成为整体产业格局变革的关键命题。
文章来自于微信公众号 “智东西”,作者 “智东西”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI