商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

11232点击 2026-06-11 10:18

不聊概念，4 个真实工作场景跑一圈

很多人对商汤的印象可能还停留在 AI 四小龙时期。这一轮大模型的聚光灯更多打在了基础模型和对话产品上，商汤的名字出现得没那么频繁。

但商汤这几年并没有闲着。大装置、大模型、应用三条线一直在推。其中离普通用户最近的，是「小浣熊家族」这条产品线。「办公小浣熊」最早靠数据分析起家，网页端运营了几年，累积了 1500 万用户，也进了不少企业流程。

最近办公小浣熊出了桌面端 2.0。跟网页版不一样，桌面端 2.0 这次可以直接读取本地文件、操控浏览器、自动执行工作流。

到底好不好使，我用四个日常工作场景实际测试了一圈。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

办公小浣熊，入驻本地

第一件事，我想试试它读本地文件到底有多利索。

正好之前做过一个 Netflix 用户流失的分析，里面塞了五种格式的素材：2 份 PDF（股东信和业绩电话会记录）、1 份财务 Excel、1 份访谈 SRT 字幕、还有几张图片。以前用网页版，这堆东西都得一个个传上去。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

办公小浣熊桌面端 2.0 的做法是，先在设置里指定一个工作文件夹，给它访问权限。你可以把整台计算机的访问权限都授权给它，出于安全考虑，最好是使用「指定文件夹」模式——只授权这一个目录，范围最小，也最安全。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

设好之后，我给它下了一句指令：

帮我分析这个文件夹，综合成一篇报告给我

它先花了几秒钟盘点文件夹结构和文件类型，然后自己决定分析路线：以本地文件为主，先抽取 PDF、Excel、字幕文本和图片元信息，再汇总成报告。

接下来直接拆成 5 个子任务并行跑。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

跑完之后，它产出了一份完整的综合分析报告，同时给了 Word 和 Markdown 两个版本。

报告里有季度会员净增趋势表、区域收入对比、流失原因拆解（疫情红利回落、账号共享、涨价、竞争、俄乌冲突逐条分析），还自己画了两张图表——全球付费会员净增趋势和 2022Q1 区域会员净增对比。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

说一下体感。整个过程从下指令到拿到报告，中间我没有做任何「搬运」动作。它自己看到了文件夹里有什么，再自行拆解任务并完成了执行。

报告质量也超出预期。它通读了几份材料，做了交叉分析。比如从财务 Excel 里拉出区域 ARM 数据，和股东信里管理层对账号共享的表态对照着讲。

另外，SRT 字幕这种格式人阅读起来很麻烦，但是很适合机器阅读。因为有时间戳，也很方便对照视频回溯。

如果任务跑出来的结果不对，它还有变更历史和一键回滚。Agent 自动执行最怕的就是误删、误改文件，这下就给出了保底措施。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

定时任务，AI 开始自动上班了

Case 1 跑完之后，一个自然的念头是：

既然已经有了本地文件的权限，那很多事情是不是就能让办公小浣熊自己干了?

比如说周报这个场景，每周都要交，每周也都有新的材料进来。如果 Case 1 的活儿能定时自动跑，那就从「我找它干活」变成「它自己干活」了。

我设了一个「每周工作周报」，每周五 18：00 自动执行，底下还能挂数据源文件，指定它去读哪个文件夹。

配置过程没什么门槛。不需要写 cron 表达式，下拉选「每周」「周五」「18：00」就行，比大多数自动化工具的配置都简单。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

这类任务乍看像脚本能搞定的事，但还是有本质区别。传统脚本更多是在搬运文件和执行规则，写周报需要读懂内容，只有依靠大模型的能力才能跑通，这是跟过去很不一样的地方。

顺手我还连了飞书。连上之后，自动装了 26 个飞书相关的 Agent Skills。AI 产出的分析报告可以一键导出为飞书文档，或者追加到已有的团队文档里。这样结果不再只停留在对话窗口，可以直接进入团队的协作流程。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

另外提一句本地记忆。设置里可以告诉它你的名字、职业角色、甚至 MBTI，它会在后续任务里记住这些偏好。

比如你告诉它「我的周报偏好：先讲结论，再列进展，最后写风险」，它每次自动产出的格式就会照着来。

而且这个记忆是随着使用逐渐积累的。你跟它交互越多，它对你的工作习惯和偏好就越熟悉。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

「十字路口」的往期嘉宾，都在这了

第三件事，试浏览器操控。区别于 AI 搜索，这个功能可以让 AI 自己像人一样去访问页面、点击元素、读取实时的信息。

我想找一个平时真会干、但手动做起来很繁琐的任务来测。正好十字路口播客做了 100 多期，请过上百位嘉宾，但一直没有系统整理过嘉宾名单页面。

我告诉办公小浣熊：

请抓取播客「十字路口 Crossing」往期嘉宾，并将名单做成动态网页，风格参考苹果官网

它接到之后自动拆了四步：确认数据源并抓取往期节目信息、清洗嘉宾名单（去重、补身份和链接）、生成网页、本地预览检查。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

这个任务链路比较长，实际上是两个任务的叠加：浏览器操控抓数据，代码生成做网页。如果中间名单抓取不对或者排布方式不合预期，最后返工成本很高。

这时候「插入」功能值得特别说一下，它可以在 Agent 执行的中途追加新指令。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

我把任务拆成了两部分：先提取嘉宾名单，我确认之后，再生成网页。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

最后出来的效果有点超出我预期。它直接给了一个完整的单文件 HTML，苹果官网那种干净、克制的视觉气质把握得很到位。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

功能上也很完整：搜索框覆盖嘉宾名、公司、节目标题三个检索维度，有嘉宾领域的分类筛选，排序支持按出现次数和姓名自由切换。

这些功能我并没有要求办公小浣熊做，但确实也属于常见功能的范畴，办公小浣熊它都自己想到了。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

数据完整覆盖了 115 期节目，整理出 129 张嘉宾卡片。同一位嘉宾多次上节目的自动合并成一张卡，比如庄明浩就上了 4 期。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

点开任意一张卡片会弹出详情，列出这位嘉宾所有关联节目的标题、期数、日期。点击链接就可以跳转到节目页面。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

回头看整个过程，我其实就是写了句 Prompt 词，中间追加了一次命令，其他都是办公小浣熊自己跑的。执行日志里能看到它中间处理过不少问题，比如选择器匹配失败、favicon 404，但都自己解决了。全程大概也就十几分钟。

这放在以前几乎不可能。先不说整理名单的繁琐，前端开发门槛也会卡住很多人。这可能就是技术进步最有意思的地方，它会跨越 Gap，让一些原本不会存在的东西变得可能。

万能入口 Quick Bar

最后一件事，试 Quick Bar。

前面三个 Case 都是在办公小浣熊的主窗口里干活，Quick Bar 的逻辑不一样：你在任何应用里，选中一段内容，按 ⌘K 就能唤起办公小浣熊，它就能直接帮助你处理当前选中的东西。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

我试了两个场景。

第一个，翻译。

我在浏览器里看一篇英文长文，选中了几段关于 Dario Amodei 讲 Big Blob of Compute 的内容，按 ⌘K 唤起 Quick Bar，让它翻译成中文。

响应很快，翻译结果直接弹出来，不需要离开当前页面。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

以前的流程是：

选中 → 复制 → 切到翻译工具/AI 对话框 → 粘贴 → 等结果 → 复制译文 → 切回来。

现在是：

选中 → ⌘K → 翻译。

中间省掉了四五步。

第二个，Excel 增强。

在 Excel 里选中一组数据，⌘K（Windows/Linux：Ctrl+K）唤起 Quick Bar，让它分析异常值、打标签。它能读到选中的单元格内容，直接在旁边给出分析结果。

整个过程我都没有离开 Excel，就好像 Excel 里本来就内置了一个 AI 助手。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

相对之前更重度的任务来说，Quick Bar 的体感完全不一样，非常轻盈。你可以在任意窗口唤醒它，从任意一个工作环节切入，调用办公小浣熊的能力。就好像一个粘合剂一样，无缝粘合了各种流程。

Agent 进入真实工作环境

今年是 Agent 大年，大家其实都在讲「本地操作」、「让 AI 长出手脚」这一套叙事。但其实我觉得这个问题还可以再往前推一步：

让 AI 长出手脚之后呢？我们需要它做什么？

办公小浣熊桌面端 2.0 给了一个观察样本。四个 Case 跑下来，没有哪个功能让我觉得特别惊艳或者搞了个大的，但整体感受是：它做的这些事情，都非常贴近真实的工作环境。

比如本地文件读取这件事，听起来平平无奇，但它解决的是 AI 最核心的瓶颈之一：上下文。

大模型的能力再强，如果它看不到你的素材，就只能基于你手动喂进去的片段来回答。打通本地文件之后，你的工作目录本身就变成了上下文，AI 处理问题的质量完全不一样。

浏览器操作也是类似的道理，相当于把你线上的信息来源也接入了。

定时任务的价值就更好理解了，因为人的时间是有限的，但 AI 可以 24 小时跑。设好之后 AI 按节奏自己运行，一觉睡醒，结果也就出来。

Quick Bar 则是把 AI 变成了一个随时能唤起的东西，贴合到任何 App 里，极大拓展了应用场景。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

这几个能力单拎出来都不复杂，但组合在一起，你会发现它们能拼出不少完整的工作流。而且小浣熊桌面端 2.0 还支持 MCP 工具接入和 Skills 扩展，能接的通道还在变多。

说到底，与其追求 AI 能做多炫的事情，不如先把它扎进真实的工作环境里，把那些每天都要干的繁琐的碎活完成好。

商汤办公小浣熊·桌面端2.0 上新：没啥废话，就是哐哐干活

我测的这几个场景只是起点。想试试这些能力到底能覆盖多少真实任务，可以看看商汤最近的活动「小浣熊真实任务挑战季」，里面有两个赛事可以参加。

一个是「OPC 能力挑战赛」，由商汤小浣熊和 Datawhale 联合发起的。总奖池 ¥55万，最高单项奖金 ¥10万。分新手出道赛和高手创造赛两个赛道。新手赛用小浣熊完成一个真实任务发到社交媒体就行，高手赛要求交出一个完整的行业场景作品。

另一个是「21 天真实任务打卡挑战」，每天一个真实办公任务，连续打卡能换周边和会员，总奖池超过 200 万。

文章来自于"十字路口Crossing"，作者 "一涛"。

AI新闻 AI办公小浣熊商汤小浣熊

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0