微软研究了20万Copilot真实对话：AI到底改变了哪些工作？

9856点击 2025-07-15 12:18

每当我们讨论AI对就业的影响时，大多数都是专家拍脑袋的预测。但微软研究院的这篇论文不一样，他们分析了20万个真实的Microsoft bing Copilot用户对话，每一个数据点背后都是一个真实的人，一个真实的工作场景，首次用硬数据告诉我们：AI到底在改变什么工作？哪些工作活动和职业正在被生成式AI（Generative AI）最大程度地影响？

双重视角：一个对话，两种影响

研究者提出了一个特别聪明的观察角度。他们发现，每一次人机对话其实包含两层含义：用户想让AI帮忙做什么（用户目标），以及AI实际在执行什么工作（AI行为）。举个例子，用户问"怎么打印文档"，用户目标是"操作办公设备"，但AI的行为是"培训他人使用设备"，这个区分很重要，因为它揭示了AI是在"辅助"人类工作还是"替代"人类工作。有意思的是，研究发现40%的对话中这两个角色完全不同，96%的对话中两种角色的重叠度不到50%，说明辅助和替代是完全不同的两个维度。

微软的数据优势：别人做不了的研究

坦白说，能做这种研究的公司屈指可数。微软用了两个数据集：10万个随机对话（COPILOT-UNIFORM）和10万个有用户反馈的对话（COPILOT-THUMBS），时间跨度覆盖2024年前9个月。

微软研究了20万Copilot真实对话：AI到底改变了哪些工作？

ONET通用工作活动频率分析 - 蓝色代表AI行为，红色代表用户目标，灰色代表美国劳动力中的实际占比*

这张图清晰地展示了AI使用的偏向性。您可以看到，AI在知识工作类活动（如"获取信息"、"创造性思维"）中的使用比例远超其在真实劳动力中的占比，而物理性工作（如"搬运物体"、"监控流程"）则明显不足。这说明当前的AI技术确实更适合知识密集型任务。

O*NET分解法：把工作拆成332个中间层级

要理解研究方法，先得搞清楚O*NET是什么。这是美国劳工部维护的职业信息数据库，包含了美国所有职业的详细分解。其核心思想是将一个完整的职业（Occupation）分解为其构成部分，即一系列具体的任务（Tasks）和工作活动（Work Activities），以便分析技术（如自动化或AI）对这些构成部分的影响，并最终评估对整个职业的潜在冲击。它采用五层金字塔结构：22个主类 → 1000个职业 → 任务 → DWA（详细工作活动）→ 332个IWA（中间工作活动）→ 41个GWA（通用工作活动）。

微软研究了20万Copilot真实对话：AI到底改变了哪些工作？

职业 (Occupation)：这是最高层级，例如“经济学家” 。
任务 (Task)：一个职业所包含的一系列具体工作职责。例如，经济学家的一项任务是“编译、分析和报告数据以解释经济现象和预测市场趋势” 。
详细工作活动 (Detailed Work Activities, DWAs)：比任务更通用的工作描述，可以适用于不同职业中的相似任务。例如，上述任务可以映射到“预测政治、经济或社会趋势”这个DWA 。
中间工作活动 (Intermediate Work Activities, IWAs)：由相关的 DWA组成的更广泛的类别。例如，“预测...”这个DWA属于“分析市场或行业状况”这个IWA 。该论文的研究主要聚焦在IWA这个层级。
通用工作活动 (Generalized Work Activities, GWAs)：这是最高层级的工作活动分类，由相关的IWA组成。例如，“分析市场...”这个IWA属于“分析数据或信息”这个GWA 。

研究者选择IWA层级有三个原因：首先，332个类别对AI分类器来说数量适中，而18,796个具体任务太复杂；其次，IWA跨职业通用，一个编程活动可能出现在数据科学家、网页开发者等30多个职业中；第三，IWA的描述精确度刚好，既不会太泛化也不会过于具体。

GPT-4o的分类管道：三步识别流程

技术细节来了，研究者设计了一个精妙的三阶段分类系统，堪称工程艺术品。

第一步：智能摘要生成 输入一段完整对话，GPT-4o需要完成两项任务：总结用户的真正目标（不是表面问题），识别AI实际执行的工作类型。关键是，AI还要为每个摘要生成4个不同措辞的变体，这样做是为了避免用词偏差影响后续匹配。

第二步：语义相似度排序 系统将生成的5个摘要（1个原版+4个变体）与332个标准IWA描述进行语义相似度计算，使用的是OpenAI的text-embedding-3-large模型。然后按相似度对所有IWA排序，相似度高的排在前面，显然更可能匹配。

然后从三个维度测量AI表现：

用户满意度：点赞/点踩比例
任务完成率： GPT-4o-mini判断是否完成用户任务
影响范围： AI能处理该工作活动的多大比例

第三步：精准二元分类—职业影响力计算 这是最关键的步骤，系统不是一次性判断所有332个IWA，而是将排序后的IWA分成若干组，每组20个，让GPT-4o逐组进行精确的"是/否"判断。研究者发现，一次处理20个IWA时准确率最高，超过20个就会出现注意力分散。每组分类时，系统还会把第一步生成的摘要作为"参考点"加入，帮助AI保持判断标准的一致性。

创建了一个AI适用性评分公式：

AI适用性 = Σ (工作活动权重 × 覆盖率 × 完成率 × 影响范围)

权重基于： ONET中该活动在职业中的重要性和相关性

用户最爱让AI干什么？三大核心需求详解

数据显示，用户求助AI最多的三大类活动呈现出清晰的知识工作特征：

1. 信息收集类（占比最高） 具体包括：收集物理或电子资源信息、研究法律法规、维护专业知识库、阅读各类文档材料、获取商品服务信息。这类需求反映了AI作为"超级搜索引擎+智能助手"的核心价值，用户不仅要找信息，更要找对信息。

2. 写作编辑类（成功率极高） 涵盖：编写商业或艺术材料、编辑文档资料、创建视觉设计、制作信息材料。这类需求的特点是AI表现优异，完成率通常在80%以上，用户满意度也最高。

3. 对外沟通类（应用最广） 包括：向他人提供信息、解释技术细节、提供建议咨询、协助客户解决问题。这类需求跨越多个行业，说明AI在人际沟通环节正在发挥重要作用。

微软研究了20万Copilot真实对话：AI到底改变了哪些工作？

用户目标（左）和AI行为（右）的顶级工作活动分布 - 展示了最常见的25个工作活动类型

这张图非常直观地展示了用户需求和AI能力的分布。左侧显示用户最常寻求帮助的工作活动，右侧显示AI最常执行的工作类型。您会发现，AI经常扮演"服务提供者"的角色（注意右侧的"Respond"、"Provide"、"Present"等动词），而用户更多是在寻求信息获取和内容创作方面的帮助。

AI最擅长什么？服务导向的三大角色

从AI实际执行的工作来看，它主要扮演三种角色，且表现出明显的服务导向特征：

1. 信息服务员（执行频率最高） 最常见的行为包括：收集和提供信息、准备信息材料、开发内容。值得注意的是，AI在执行这类任务时，用户满意度达到75%以上，任务完成率超过85%。

2. 解释说明专家（用户满意度最高） 具体表现为：展示研究成果、解释技术细节、阐述政策法规、呈现分析结果。这类工作的特点是需要将复杂信息转化为易懂的表达，AI在这方面表现优异。

3. 咨询辅导顾问（应用场景最广） 包括：回应客户问题、提供一般性协助、向他人提供建议、指导他人。有趣的是，当AI帮助用户向他人提供建议时，效果比AI直接提供建议更好。

成功率分析：AI的能力光谱揭秘

研究者从三个维度评估AI表现：用户满意度（点赞率）、任务完成率（LLM评估）、影响范围（工作覆盖度）。结果显示，AI能力呈现明显的"光谱分布"：

80%+成功率（AI的强项领域）

写作编辑任务：编辑文档材料、撰写艺术商业内容，完成率85%+
信息研究工作：研究医疗健康、法律政策、文化社会议题，满意度80%+
商品评估服务：评估产品特性、选择材料、购买建议，用户认可度极高
解释说明类：技术细节阐述、学术职业培训、咨询建议服务

微软研究了20万Copilot真实对话：AI到底改变了哪些工作？

用户反馈最佳和最差的工作活动类型 - 显示了AI能力的明显边界

50-70%成功率（AI的一般领域）

计划安排任务：制定工作计划、协调时间安排、项目管理支持
基础分析工作：简单数据整理、趋势识别、报告生成
沟通协调活动：团队合作、会议组织、信息传递

<50%成功率（AI的薄弱环节）

数据分析计算：复杂数据处理、财务计算、科学数据分析，完成率不足40%
视觉设计创作：艺术设计、展示布置、创意视觉工作，满意度仅30%+
人际互动任务：客户会议、个人核实、外部协调，成功率最低

这个能力分布对产品开发至关重要：如果您的AI产品定位在数据分析或视觉设计领域，需要特别注意用户体验的优化。

职业冲击详细排名：谁是赢家谁是输家

研究者创建的AI适用性评分综合考虑了覆盖率、完成率和影响范围

高影响职业（AI适用性得分0.35+）

翻译口译员（0.49分，最高）：98%的工作活动与AI能力重叠，语言处理是AI的核心优势
历史学家（0.48分）：研究、分析、写作三大核心能力完美匹配
销售代表（0.46分，114万从业者）：信息提供和沟通说服是关键需求
客服代表（0.44分，286万从业者）：问题解答和信息服务，AI表现突出
作家编辑（0.45-0.37分）：内容创作和编辑优化，AI辅助效果显著
程序员（0.44分）：代码生成和技术说明，与AI能力高度契合

微软研究了20万Copilot真实对话：AI到底改变了哪些工作？

AI适用性最高职业的工作活动构成 - 桑基图展示了职业（右）与核心工作活动（左）的对应关系

这个桑基图特别有价值，它解释了为什么某些职业会有高AI适用性。您可以看到，右侧职业的高度代表从业人数（如客服代表、销售代表人数众多），左侧的工作活动通过颜色流向显示了对哪些职业贡献最大。

比如"向客户提供信息"这个活动就流向了多个高人数职业，说明这是一个影响广泛的AI应用场景。

中等影响职业（AI适用性得分0.20-0.35） 教育培训、金融分析、工程技术、管理咨询等知识工作者，AI主要在信息处理和文档工作方面提供帮助，但核心专业判断仍需人工完成。

低影响职业（AI适用性得分<0.10） 主要是体力劳动和机械操作类职业：

护理助理、按摩师：需要直接人际接触和体感判断
机器操作员、卡车司机：需要物理环境感知和手工操作
清洁工、建筑工：需要空间认知和精细动作控制
农林工人：需要农业经验和环境适应能力

行业层面的结构性变革：22个主要行业的全面排名

从美国标准职业分类（SOC）的22个主要行业类别来看，AI正在创造一个前所未有的就业结构重组：

微软研究了20万Copilot真实对话：AI到底改变了哪些工作？

按AI适用性得分排序的美国主要职业群体 - 显示了行业层面的冲击程度

高冲击行业（AI适用性得分>0.25）

销售及相关（0.32分）：1326万从业者，沟通说服是AI核心优势
计算机和数学（0.30分）：517万从业者，知识工作的标杆行业
办公和行政支持（0.29分）：1816万从业者，受影响人数最多的群体
社区和社会服务（0.25分）：咨询指导和信息服务高度匹配AI能力
艺术设计娱乐（0.25分）：内容创作和媒体制作，创意产业的新变化

中等冲击行业（AI适用性得分0.15-0.25）

商业和金融运营（0.24分）：分析报告和客户服务部分受影响
教育指导和图书馆（0.23分）：教学辅助和信息服务有AI应用空间
建筑和工程（0.23分）：设计和规划环节可以AI辅助
个人护理和服务（0.20分）：咨询环节受影响，服务环节依然需要人工

低冲击行业（AI适用性得分<0.15） 按影响程度从高到低：管理（0.14）、保护服务（0.14）、法律（0.13）、医疗从业者（0.12）、设备维修（0.11）、生产制造（0.11）、交通运输（0.11）、建筑清洁（0.08）、建筑开采（0.08）、农林渔业（0.06）、医疗支持（0.05）。

这个排名揭示了一个重要趋势：沟通密集型和信息处理型行业受冲击最大，体力劳动和专业技能型行业相对安全。

预测验证：理论和现实高度吻合

最令人信服的是，微软的真实使用数据与此前最权威的AI影响预测研究高度一致。Eloundou等人（2024）曾预测哪些职业可能被AI影响50%以上，微软的实际使用数据与这些预测的相关性达到r=0.73（职业层面）和r=0.91（行业层面），这种一致性在社会科学研究中极为罕见。

微软研究了20万Copilot真实对话：AI到底改变了哪些工作？

微软实际使用数据与Eloundou等人预测的对比 - 红点表示实际影响超出预测，蓝点表示预测高于实际

这张散点图特别有意思。每个点代表一个职业，X轴是Eloundou团队的预测得分，Y轴是微软的实际测量得分。如果预测完全准确，所有点都应该在对角线上。红色点（如市场研究分析师、CNC工具程序员）表示AI的实际影响超出了预测，而蓝色点表示预测可能过于乐观。这种对比为AI产品开发提供了重要的市场验证。

对AI产品开发者的战略启示

基于这些发现，我们可以得出几个关键的产品策略建议：

1. 优先发力信息处理类产品 研究清楚表明，信息收集、整理、分析是用户最大的需求，也是AI最擅长的领域。如果您正在开发AI产品，优先考虑这个方向不会错。

2. 避开数据分析和视觉设计的坑 虽然这两个领域看起来很有技术含量，但用户满意度和任务完成率都不高。除非您有特别的技术突破，否则这两个领域的产品很难获得市场认可。

3. 重视"辅助"而非"替代"的产品设计 数据显示，AI在帮助用户完成工作方面比直接替代用户完成工作更受欢迎。产品设计时应该考虑如何增强人的能力，而不是完全取代人。

4. 关注中等技能岗位的机会 不仅仅是高技能的程序员和分析师，大量的销售、客服、行政人员也是AI产品的潜在用户。这些市场往往被忽视，但规模巨大。

5. 准备迎接能力边界的快速变化 这项研究只是AI发展中的一个快照。随着技术进步，AI的能力边界会快速变化，产品策略也需要相应调整。

薪资教育的意外发现

研究显示AI适用性与薪资相关性很弱（0.07），这打破了很多人的假设"高薪工作更容易被AI替代"。事实上，AI的影响是"横切"式的，它会同时冲击各个收入层级，但方式不同。这意味着传统的基于教育程度和技能水平的社会分层正在被重新洗牌。新的分层标准可能是"AI协作能力"，那些能与AI有效协作的人将构成新精英，而无法适应的人，不管学历多高，都可能被边缘化。

写在最后

我们正在目睹的不是"机器取代人"，而是"工作内容的重新定义"但这种重新定义是有代价的。

论文数据来自2024年，而现在2025已过半，AI技术还在加速演进。

对于年轻人

这可能是机会。他们成长在数字时代，更容易适应AI工具。但代价是，他们可能永远不会真正掌握那些"传统"技能，比如如何从零开始研究一个问题，如何独立思考和分析。

对于中年劳动者

需要在事业的中期重新学习，重新定义自己的价值，这是最大的挑战。能够成功转型的，可能会获得比以前更大的价值；无法适应的，可能会被彻底边缘化。

对于体力劳动者

短期内冲击不大，但这也可能是一个假象。当知识工作者开始向他们的领域"下沉"时，竞争会更加激烈。或许我们不能再停留在"AI会不会影响就业"的讨论上，而需要直面"AI正在如何重塑工作，我们如何应对"的现实。

文章来自于“AI修猫Prompt”，作者“AI修猫Prompt”。

关键词: AI , Copilot , 微软AI , 模型训练

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架，其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址：https://github.com/InternLM/MindSearch
在线使用：https://mindsearch.openxlab.org.cn/

【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费，搜索结果包含文本，图片，视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目，测试搜索结果最好。
项目地址：https://github.com/miurla/morphic/tree/main
在线使用：https://www.morphic.sh/

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0