《麻省理工科技评论》年度AI洞察:10个关键词理解正在发生的AI趋势

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
《麻省理工科技评论》年度AI洞察:10个关键词理解正在发生的AI趋势
7261点击    2026-04-24 10:11

《麻省理工科技评论》年度AI洞察:10个关键词理解正在发生的AI趋势

(来源:麻省理工科技评论)


在嘈杂喧嚣的 AI 世界里,什么才是真正值得关注的?《麻省理工科技评论》的记者和编辑花了多年时间思考这个问题,追踪 AI 的进展,描绘下一步走向。现在,我们第一次把答案浓缩成了一份清单。


受我们每年评选的“十大突破性技术”启发,这是一份全新的盘点:那些正在推动进步或改变权力格局的 AI 大趋势、大方向和新突破——它们定义着今天,也将塑造明天的可能性。


《麻省理工科技评论》年度AI洞察:10个关键词理解正在发生的AI趋势


人形机器人数据

Humanoid Data


就像我们说的话和写的字变成了大语言模型的训练数据一样,人类运动的视频如今也在被大规模收集,用来训练人形机器人。


这股风潮始于一个简单的类比:ChatGPT 靠海量文本学会了生成语言,那人形机器人能不能靠海量运动数据学会在真实世界里干活?问题在于,描述人类运动方式的数据集远不像互联网文本那样现成。虚拟仿真曾经是替代方案,但仿真永远无法完美还原真实世界的物理特性,训练出来的机器人一到现实中就容易摔跤。


于是企业决定走笨办法:直接收集真实世界的数据。世界各地出现了大型训练中心,工人穿着外骨骼一天擦几百次桌子;尼日利亚和印度的零工把手机绑在头上,在家拍自己做家务;美国的快递公司给员工装上传感器记录搬箱子的动作,一边研究工伤,一边为未来可能取代他们的机器人积累训练数据。


2025 年,仅人形机器人领域就吸引了 61 亿美元投资。但一段我打开微波炉的视频到底值多少钱?要多少个这样的片段才能教会一个机器人做晚饭?没有人知道这条路能不能走通。


《麻省理工科技评论》年度AI洞察:10个关键词理解正在发生的AI趋势


更强大的大语言模型

LLMs+


ChatGPT 之后,下一个大事件是什么?答案可能让人意外:还是大语言模型——只不过更强、更高效、更能独立干活。


当前 LLM 的核心瓶颈在于:它们擅长回答一个问题,但让它们连续工作几天、独立攻克一个复杂的多步骤任务,就很容易跑偏或遗忘。要从“聊天助手”进化成“AI 劳动力”,LLM 需要在三个方向上突破。


第一是效率混合专家模型(MoE)把一个大模型拆成多个小模块,每次只启动需要的那部分,大幅降低算力消耗。扩散模型和 DeepSeek 提出的“文本转图像编码”等实验性方案也在探索更便宜的计算路径。


第二是工作记忆。两年前 LLM 一次只能处理几十页文本,现在最新模型的上下文窗口已经扩展到了 100 万个 token,相当于一整摞书。但窗口越大,模型越容易在长任务中迷路。MIT CSAIL 提出的“递归 LLM”提供了一种新思路:把输入拆成小块分发给自己的多个副本,各自处理再汇总,在长任务上的可靠性远高于传统方案。


第三是成本。部署 LLM 的费用正在急速下降,一些模型的服务成本按年化计算已经降了几百倍。


LLM 没有过时,它正在脱胎换骨。


《麻省理工科技评论》年度AI洞察:10个关键词理解正在发生的AI趋势


AI 诈骗

Supercharged Scams


ChatGPT 让所有人看到了生成式 AI 的威力,犯罪分子也不例外。自 2022 年以来,网络犯罪者迅速把 AI 工具整合进了自己的作业流程:用 LLM 写钓鱼邮件、用深伪技术制作以假乱真的视频、用 AI 自动扫描系统漏洞、让恶意软件变得更难检测……AI 没有从根本上改变黑客攻击的本质,但它大幅降低了入行门槛,让攻击变得更快、更便宜、更容易规模化。


这种趋势已经在全球显现。国际刑警组织警告说,东南亚的诈骗中心正在用廉价 AI 工具提速扩量;阿联酋声称挫败了一系列由 AI 辅助的攻击;Anthropic 则透露,其正在测试的模型 Mythos 在所有主流操作系统和浏览器中都发现了严重漏洞,公司因此推迟了模型发布,并联合多家科技公司成立了名为 Project Glasswing 的防御联盟。


攻击在变强,防御也在跟进。仅微软一家,每天就要用 AI 系统处理超过 100 万亿个可疑信号,一年内拦截了价值 40 亿美元的诈骗和欺诈交易。让攻击成为可能的同一种技术,也可能是未来防御的最大依仗。


眼下,基本的安全措施仍然能挡住大部分粗糙的 AI 辅助攻击。但随着公开可用的生成式 AI 能力不断增强,未来面对更精密的攻击时我们能否守住,还远没有答案。


《麻省理工科技评论》年度AI洞察:10个关键词理解正在发生的AI趋势


世界模型

World Models


AI 在数字世界里已经很厉害了,但物理世界仍然是人类的地盘。写小说、写代码远比叠衣服、上街导航容易得多。许多研究者认为,要跨过这道坎,需要一种叫做“世界模型”的技术。


世界模型的核心理念是:让 AI 像人类一样在脑子里构建一个外部世界的模型,用它来预测行动的后果,再据此做决定。你知道把杯子推下桌子会摔碎,是因为你的大脑里有一个够用的物理模型。AI 目前还没有这个东西。LLM 看似能回答“杯子推下桌会怎样”,但研究表明这种“理解”很脆弱,稍微换个条件就彻底失灵。


这个方向最近突然热了起来。谷歌 DeepMind 和斯坦福教授李飞飞创办的 World Labs 都在积极推进,杨立从 Meta 离职创办了专注世界模型的初创公司,OpenAI 也把关闭 Sora 视频应用后释放的资源转投到了“长期世界模拟研究”上。


目前的应用还比较初级。谷歌 DeepMind 和 World Labs 在做的事情是根据文本、图像或视频生成可交互的 3D 虚拟环境,可以用在游戏设计和 VR 体验中。《宝可梦 Go》的开发商则在用玩家收集的数十亿张图片构建世界模型的雏形,目标是引导配送机器人。


真正的突破可能要等到世界模型被整合进灵活的智能体,既能理解环境,又能预判后果,还能自己做决定。到那一步,机器人才有可能真正走进物理世界。


《麻省理工科技评论》年度AI洞察:10个关键词理解正在发生的AI趋势


战争中的 AI 指挥

The New War Room


把伊朗冲突称为第一场“AI 战争”并不准确。从阿富汗到乌克兰再到以色列,算法帮军方做分析、识别目标已经有好多年了。真正新的东西是:指挥官们开始向基于大语言模型的对话式 AI 寻求行动建议,而不只是让它帮忙分析情报。


过去十年,Maven 等 AI 系统干的是初级分析师的活,从海量监控画面和卫星图像中挑出有价值的信号。现在大语言模型让这些系统变得更具交互性:军方人员可以把一份潜在目标清单丢给聊天机器人,让它建议先打哪一个。Anthropic 的 Claude 已经深度嵌入美军作战流程,以至于五角大楼说要花六个月才能替换掉它。


问题是显而易见的。用过生成式 AI 的人都知道,同一个提示词每次跑出来的结果不一样,建议未必准确。正常情况下用户应该逐条核查,但在“五分钟内决定打哪个目标”的压力下,核查很可能被省略。军事专家还警告说,指挥官可能过度信赖 AI 把复杂战场压缩成一块整洁仪表盘后呈现的画面,而科技公司也可能借此对军方决策产生不当影响。


与此同时,五角大楼正计划让 AI 公司用机密军事数据训练新模型,这将带来全新的安全风险,也让硅谷与五角大楼的距离前所未有地近。


算法自动化军事中的苦差事已经有很长一段时间了,但现在生成式 AI 在作战室里有了自己的席位,指挥官们开始认真对待它的建议。它正在重塑军方共享情报、与大型科技公司合作以及做出致命决策的方式。


《麻省理工科技评论》年度AI洞察:10个关键词理解正在发生的AI趋势


被武器化的“深度伪造”

Weaponized Deepfake


随着生成式 AI 的进步和工具的普及,伪造图像、视频与音频的门槛大幅降低,普通人也能制造高度逼真的虚假内容。这些内容已被广泛用于色情制作、诈骗和政治操控,不仅伤害个体,也在更深层次侵蚀社会信任。


其中,女性与边缘群体承受的影响尤为严重,大量深度伪造内容带有性剥削性质。与此同时,政治领域的滥用也在加剧,一些 AI 生成的图像和视频被用于影响公众认知,甚至误导选民。


尽管业界提出了技术防护、用户自我保护和立法监管等解决方案,但都存在明显局限:技术可以被绕过,行为难以改变,监管执行也充满不确定性。随着美国中期选举临近,而相关监管与研究力量却在削弱,深度伪造可能进一步加剧信息混乱。


当真假难辨成为常态,人们失去的或许不只是判断力,而是对现实本身的信任。


《麻省理工科技评论》年度AI洞察:10个关键词理解正在发生的AI趋势


多智能体协作

Agent Orchestration


当前,生成式智能体(Generative Agent)正在摆脱只能“聊天”的功能边界,走向任务的自主执行。在此基础上,多智能体系统通过角色分工与动态调度,可协同完成编程、调研、流程管理等复杂任务,让个体工作者具备团队级产出能力。从代码协作到科研辅助,这类工具试图将知识工作模块化、流水线化,重构白领岗位的价值链条。


效率提升的背后是控制力的让渡。当智能体开始操作真实系统、调用敏感数据,模型幻觉、目标错位或提示词注入都可能引发难以追溯的连锁错误。而当前评估标准、审计机制与应急方案普遍缺位,技术落地跑在了安全基建前面。


更深层的拷问在于:当我们习惯将决策链条交给自主代理,人类是变得更高效,还是逐渐丧失对过程的理解与干预能力?信任不该是黑箱的副产品,而需建立在可解释、可回退、可问责的基础之上。


《麻省理工科技评论》年度AI洞察:10个关键词理解正在发生的AI趋势


中国的开源押注

China’s Open-source Bet


中国 AI 实验室正以“开源”为杠杆,影响全球的开发者生态。不同于硅谷将核心模型封装收费,DeepSeek、阿里巴巴的千问、月之暗面的 Kimi 等机构选择直接释放模型权重,允许任何人下载、微调、本地部署。这一策略迅速赢得预算有限、追求灵活性的开发者青睐。去年中国开源模型下载量首次超越美国,阿里系模型的社区衍生版本数量已超过谷歌与 Meta 之和。


开源对于中国来说不仅是技术共享,更是地缘博弈下的务实路径:在高端芯片受限的背景下,借助全球开发者的反馈与贡献,反而能加速模型迭代。


当然,开放也伴随着压力。关于模型内容合规约束、能力蒸馏争议依然存在。但当越来越多产品建立在中国开源底座之上,AI 技术的权力结构已悄然重构:多极化不是预测,而是正在发生的现实。


《麻省理工科技评论》年度AI洞察:10个关键词理解正在发生的AI趋势


人工智能科学家

Artificial Scientist


当“自主探索”成为可能,AI 在科研中的角色正悄然转变。如今的大模型已能检索文献、撰写论文、生成代码,而下一步的目标更加清晰:打造能独立提出假设、设计实验、解读结果的“人工智能科学家”。


2024 年,DeepMind 凭借 AlphaFold 斩获诺贝尔奖,点燃了新一轮竞争。随后,OpenAI 发布 GPT-Rosalind,Anthropic 深耕生物领域,谷歌推出多智能体协作工具——由不同角色分工配合,共同推进研究流程。


突破不止于代码。为弥补 AI“无法动手”的局限,研究者开始将其接入自动化实验室:OpenAI 与 Ginkgo Bioworks 合作,让 AI 自主迭代实验方案,成功将某种蛋白的合成成本降低 40%。


但效率提升的同时,隐忧也随之浮现。Nature 的一项研究提醒,当科研过度依赖 AI 分析既有数据,探索方向可能偏向“易建模、数据足”的领域,而那些冷门却关键的问题,反而容易被忽视。技术可以加速发现,但科学应有的广度与多元,终究需要人类主动守护。


《麻省理工科技评论》年度AI洞察:10个关键词理解正在发生的AI趋势


人工智能抵制浪潮

Resistance


一股对人工智能的质疑浪潮,正在全球悄然蔓延。人们担忧的不再是遥远的科幻场景,而是眼前的现实:数据中心推高了电费,工作岗位被悄然替代,聊天机器人影响青少年心智,军事应用缺乏边界,创作成果被无偿调用。


抗议行动随之浮现。伦敦街头出现示威人群,美国不同立场的群体罕见联合,签署宣言呼吁“技术应服务于人”;部分用户因军方合作卸载常用工具,家长联名要求校园暂缓引入聊天机器人。民意调查显示,多数公众对 AI 的快速渗透持保留态度。


这些声音已开始影响政策走向:纽约、加州为陪伴型机器人设立规则,英国在艺术家反对下撤回版权豁免提案,多地社区成功延缓数据中心建设。技术演进的速度从未放慢,但越来越多的人希望,在塑造未来的过程中,普通人的关切也能被认真倾听。


文章来自于"DeepTech深科技",作者 "麻省理工科技评论"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0