商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活
10050点击    2026-06-11 10:18

不聊概念,4 个真实工作场景跑一圈


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


很多人对商汤的印象可能还停留在 AI 四小龙时期。这一轮大模型的聚光灯更多打在了基础模型和对话产品上,商汤的名字出现得没那么频繁。


但商汤这几年并没有闲着。大装置、大模型、应用三条线一直在推。其中离普通用户最近的,是「小浣熊家族」这条产品线。「办公小浣熊」最早靠数据分析起家,网页端运营了几年,累积了 1500 万用户,也进了不少企业流程。


最近办公小浣熊出了桌面端 2.0。跟网页版不一样,桌面端 2.0 这次可以直接读取本地文件、操控浏览器、自动执行工作流。


到底好不好使,我用四个日常工作场景实际测试了一圈。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


办公小浣熊,入驻本地


第一件事,我想试试它读本地文件到底有多利索。


正好之前做过一个 Netflix 用户流失的分析,里面塞了五种格式的素材:2 份 PDF(股东信和业绩电话会记录)、1 份财务 Excel、1 份访谈 SRT 字幕、还有几张图片。以前用网页版,这堆东西都得一个个传上去。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


办公小浣熊桌面端 2.0 的做法是,先在设置里指定一个工作文件夹,给它访问权限。你可以把整台计算机的访问权限都授权给它,出于安全考虑,最好是使用「指定文件夹」模式——只授权这一个目录,范围最小,也最安全。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


设好之后,我给它下了一句指令:


帮我分析这个文件夹,综合成一篇报告给我


它先花了几秒钟盘点文件夹结构和文件类型,然后自己决定分析路线:以本地文件为主,先抽取 PDF、Excel、字幕文本和图片元信息,再汇总成报告。


接下来直接拆成 5 个子任务并行跑。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


跑完之后,它产出了一份完整的综合分析报告,同时给了 Word 和 Markdown 两个版本。


报告里有季度会员净增趋势表、区域收入对比、流失原因拆解(疫情红利回落、账号共享、涨价、竞争、俄乌冲突逐条分析),还自己画了两张图表——全球付费会员净增趋势和 2022Q1 区域会员净增对比。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


说一下体感。整个过程从下指令到拿到报告,中间我没有做任何「搬运」动作。它自己看到了文件夹里有什么,再自行拆解任务并完成了执行。


报告质量也超出预期。它通读了几份材料,做了交叉分析。比如从财务 Excel 里拉出区域 ARM 数据,和股东信里管理层对账号共享的表态对照着讲。


另外,SRT 字幕这种格式人阅读起来很麻烦,但是很适合机器阅读。因为有时间戳,也很方便对照视频回溯。


如果任务跑出来的结果不对,它还有变更历史和一键回滚。Agent 自动执行最怕的就是误删、误改文件,这下就给出了保底措施。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


定时任务,AI 开始自动上班了


Case 1 跑完之后,一个自然的念头是:


既然已经有了本地文件的权限,那很多事情是不是就能让办公小浣熊自己干了?


比如说周报这个场景,每周都要交,每周也都有新的材料进来。如果 Case 1 的活儿能定时自动跑,那就从「我找它干活」变成「它自己干活」了。


我设了一个「每周工作周报」,每周五 18:00 自动执行,底下还能挂数据源文件,指定它去读哪个文件夹。


配置过程没什么门槛。不需要写 cron 表达式,下拉选「每周」「周五」「18:00」就行,比大多数自动化工具的配置都简单。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


这类任务乍看像脚本能搞定的事,但还是有本质区别。传统脚本更多是在搬运文件和执行规则,写周报需要读懂内容,只有依靠大模型的能力才能跑通,这是跟过去很不一样的地方。


顺手我还连了飞书。连上之后,自动装了 26 个飞书相关的 Agent Skills。AI 产出的分析报告可以一键导出为飞书文档,或者追加到已有的团队文档里。这样结果不再只停留在对话窗口,可以直接进入团队的协作流程。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


另外提一句本地记忆。设置里可以告诉它你的名字、职业角色、甚至 MBTI,它会在后续任务里记住这些偏好。


比如你告诉它「我的周报偏好:先讲结论,再列进展,最后写风险」,它每次自动产出的格式就会照着来。


而且这个记忆是随着使用逐渐积累的。你跟它交互越多,它对你的工作习惯和偏好就越熟悉。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


「十字路口」的往期嘉宾,都在这了


第三件事,试浏览器操控。区别于 AI 搜索,这个功能可以让 AI 自己像人一样去访问页面、点击元素、读取实时的信息。


我想找一个平时真会干、但手动做起来很繁琐的任务来测。正好十字路口播客做了 100 多期,请过上百位嘉宾,但一直没有系统整理过嘉宾名单页面。


我告诉办公小浣熊:


请抓取播客「十字路口 Crossing」往期嘉宾,并将名单做成动态网页,风格参考苹果官网  


它接到之后自动拆了四步:确认数据源并抓取往期节目信息、清洗嘉宾名单(去重、补身份和链接)、生成网页、本地预览检查。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


这个任务链路比较长,实际上是两个任务的叠加:浏览器操控抓数据,代码生成做网页。如果中间名单抓取不对或者排布方式不合预期,最后返工成本很高。


这时候「插入」功能值得特别说一下,它可以在 Agent 执行的中途追加新指令。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


我把任务拆成了两部分:先提取嘉宾名单,我确认之后,再生成网页。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


最后出来的效果有点超出我预期。它直接给了一个完整的单文件 HTML,苹果官网那种干净、克制的视觉气质把握得很到位。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


功能上也很完整:搜索框覆盖嘉宾名、公司、节目标题三个检索维度,有嘉宾领域的分类筛选,排序支持按出现次数和姓名自由切换。


这些功能我并没有要求办公小浣熊做,但确实也属于常见功能的范畴,办公小浣熊它都自己想到了。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


数据完整覆盖了 115 期节目,整理出 129 张嘉宾卡片。同一位嘉宾多次上节目的自动合并成一张卡,比如庄明浩就上了 4 期。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


点开任意一张卡片会弹出详情,列出这位嘉宾所有关联节目的标题、期数、日期。点击链接就可以跳转到节目页面。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


回头看整个过程,我其实就是写了句 Prompt 词,中间追加了一次命令,其他都是办公小浣熊自己跑的。执行日志里能看到它中间处理过不少问题,比如选择器匹配失败、favicon 404,但都自己解决了。全程大概也就十几分钟。


这放在以前几乎不可能。先不说整理名单的繁琐,前端开发门槛也会卡住很多人。这可能就是技术进步最有意思的地方,它会跨越 Gap,让一些原本不会存在的东西变得可能。


万能入口 Quick Bar


最后一件事,试 Quick Bar


前面三个 Case 都是在办公小浣熊的主窗口里干活,Quick Bar 的逻辑不一样:你在任何应用里,选中一段内容,按 ⌘K 就能唤起办公小浣熊,它就能直接帮助你处理当前选中的东西


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


我试了两个场景。


第一个,翻译


我在浏览器里看一篇英文长文,选中了几段关于 Dario Amodei 讲 Big Blob of Compute 的内容,按 ⌘K 唤起 Quick Bar,让它翻译成中文。


响应很快,翻译结果直接弹出来,不需要离开当前页面。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


以前的流程是:


选中 → 复制 → 切到翻译工具/AI 对话框 → 粘贴 → 等结果 → 复制译文 → 切回来。


现在是:


选中 → ⌘K → 翻译。


中间省掉了四五步。


第二个,Excel 增强


在 Excel 里选中一组数据,⌘K(Windows/Linux:Ctrl+K) 唤起 Quick Bar,让它分析异常值、打标签。它能读到选中的单元格内容,直接在旁边给出分析结果。


整个过程我都没有离开 Excel,就好像 Excel 里本来就内置了一个 AI 助手。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


相对之前更重度的任务来说,Quick Bar 的体感完全不一样,非常轻盈。你可以在任意窗口唤醒它,从任意一个工作环节切入,调用办公小浣熊的能力。就好像一个粘合剂一样,无缝粘合了各种流程。


Agent 进入真实工作环境


今年是 Agent 大年,大家其实都在讲「本地操作」、「让 AI 长出手脚」这一套叙事。但其实我觉得这个问题还可以再往前推一步:


让 AI 长出手脚之后呢?我们需要它做什么?


办公小浣熊桌面端 2.0 给了一个观察样本。四个 Case 跑下来,没有哪个功能让我觉得特别惊艳或者搞了个大的,但整体感受是:它做的这些事情,都非常贴近真实的工作环境。


比如本地文件读取这件事,听起来平平无奇,但它解决的是 AI 最核心的瓶颈之一:上下文


大模型的能力再强,如果它看不到你的素材,就只能基于你手动喂进去的片段来回答。打通本地文件之后,你的工作目录本身就变成了上下文,AI 处理问题的质量完全不一样。


浏览器操作也是类似的道理,相当于把你线上的信息来源也接入了。


定时任务的价值就更好理解了,因为人的时间是有限的,但 AI 可以 24 小时跑。设好之后 AI 按节奏自己运行,一觉睡醒,结果也就出来。


Quick Bar 则是把 AI 变成了一个随时能唤起的东西,贴合到任何 App 里,极大拓展了应用场景。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


这几个能力单拎出来都不复杂,但组合在一起,你会发现它们能拼出不少完整的工作流。而且小浣熊桌面端 2.0 还支持 MCP 工具接入和 Skills 扩展,能接的通道还在变多。


说到底,与其追求 AI 能做多炫的事情,不如先把它扎进真实的工作环境里,把那些每天都要干的繁琐的碎活完成好。


商汤办公小浣熊·桌面端2.0 上新:没啥废话,就是哐哐干活


我测的这几个场景只是起点。想试试这些能力到底能覆盖多少真实任务,可以看看商汤最近的活动「小浣熊真实任务挑战季」,里面有两个赛事可以参加。


一个是「OPC 能力挑战赛」,由商汤小浣熊和 Datawhale 联合发起的。总奖池 ¥55万,最高单项奖金 ¥10万。分新手出道赛和高手创造赛两个赛道。新手赛用小浣熊完成一个真实任务发到社交媒体就行,高手赛要求交出一个完整的行业场景作品。


另一个是「21 天真实任务打卡挑战」,每天一个真实办公任务,连续打卡能换周边和会员,总奖池超过 200 万。


文章来自于"十字路口Crossing",作者 "一涛"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0