字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

8536点击 2025-11-01 09:42

用鼠标和键盘打游戏的智能体，这就来了！

它不仅能在《我的世界》中和普通玩家一较高下。

还能玩《神庙逃亡》、《星露谷》，甚至可以在未见过的3D网页游戏中实现零样本迁移。

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

而这，都是由字节seed团队打造的通用型游戏智能体——Game-TARS完成的。

Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练，可在操作系统、网页与模拟环境中进行大规模预训练。

依托超5000亿标注量级的多模态训练数据，结合稀疏推理（Sparse-Thinking） 与衰减持续损失（decaying continual loss），大幅提升了智能体的可扩展性和泛化性。

在FPS、开放世界、WEB游戏等任务中，它的表现超越了GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet。

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

这是怎么做到的？

像人一样用键盘和鼠标打游戏

Game-TARS的核心创新在于，让智能体不再“调用函数打游戏”，而是像人一样用键盘和鼠标操作。

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

也就是说，它不只是简单地执行指令，而是真正通过模拟人类操作的方式完成游戏中的每一个动作。

相比之下，传统智能体通常依赖为特定环境定制的动作集：

在MCP或Code层，它们可以直接调用Search(query)完成搜索，无需打开界面或点击按钮。
在GUI层则执行封装好的系统动作，如“双击”或“按下热键”。

这些方式虽然高效，却缺乏通用性。一旦换个操作系统或应用环境，智能体就束手无策。

为解决这个问题，Game-TARS专注于最底层的Human Actions（人类动作）：

mouseMove(dx, dy)：鼠标相对移动，包括x轴和y轴。
mouseClick(buttons)：鼠标点击，如左键、右键或中键。
keyPress(xkeys)：键盘按键，包括单个按键和按键组合。

这种设计使智能体的动作指令集与任何特定应用或操作系统解耦，实现了与人类用户物理交互方式的直接对齐——

即Human-Native Interaction（人类自然交互）。

由此，Game-TARS定义了一个可扩展、统一的动作空间，让智能体告别高层级指令，直接动手“玩”，极大地提高了可扩展性和泛化性。

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

训练过程

与传统游戏机器人或模块化人工智能不同，Game-TARS将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型（VLM）中。

智能体无需针对每款游戏编写特定代码或规则，就能自主学习操作，并在各种游戏中完成任务。

为实现这一点，Game-TARS将该智能体构建为一个自回归的、参数化的策略，并利用统一的键盘—鼠标动作空间进行训练，包括持续预训练和后训练两个阶段，

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

在预训练阶段，团队采用的ReAct范式，结合稀疏推理（Sparse Thinking）——只在关键决策点交错进行推理和行动，以模拟人类认知模式。

具体做法包括：

离线思维链 + 在线“边做边说”（Think-Aloud）：标注者在执行任务时，通过音频实时表达思考，生成原生、即时推理的ReAct序列。
多模态同步采集：系统并行录制屏幕帧、鼠标键盘输入及音频，然后通过ASR转文字，再用大语言模型去噪、增强逻辑。
视觉锚点因果对齐：用屏幕鼠标光标作为锚点，精确对齐每个动作信号到其执行帧，恢复因果链。
轨迹构建与优化：两帧间的所有键鼠操作合并为动作事件，无操作标记为no-op；推理时间戳重定位到语义相关的动作，生成高度同步、因果一致的训练序列。

此外，为了解决“行为惯性”问题，Game-TARS引入了指数衰减权重，对连续重复动作按指数降低权重，确保新动作获得足够关注，让模型更专注于高熵动作转变，学习出更稳健、泛化能力更强的策略。

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

在超过2万小时、约5000亿token的游戏数据上大规模预训练后，研究进入后训练阶段，进一步强化智能体在特定任务中的执行能力和交互智能，重点提升三大核心能力：

指令遵循：随机替换按键绑定（如把W换成X代表“向前”），迫使模型依赖系统提示理解动作语义。同时让模型基于当前帧预测中间动作，加深对动作—状态因果关系的理解。
稀疏思维能力：定位关键决策点，只在高熵步骤增强推理；通过拒绝微调（rejection fine-tuning）强化高效稀疏思维，让智能体学会在关键时刻深思熟虑。
长期记忆：引入双层记忆机制——短期记忆保存最新图像，长期记忆只保留精炼的稀疏思维文本。

此外，为了将能力扩展到游戏以外，后训练还引入了跨领域轨迹数据，包括代码生成、GUI 自动化和科研任务，帮助 Game-TARS从游戏玩家成长为多功能通用计算机用户。

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

在具体的训练细节上，研究采用了统一的、单阶段的持续预训练方法，将所有数据源融合在一起，并对模型进行了超过5000亿个token的训练。

在后训练阶段，对约200亿个精心策划的高质量token进行了微调。

实验验证

研究首先通过在《我的世界》中测试智能体的能力，验证了统一动作空间和大规模持续预训练的有效性。

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

与grounding-based或基于API的动作不同，研究发现统一动作空间在训练数据少于10B时，最初在成功率方面并未超越基于GUI动作的智能体。

然而，统一动作空间的关键优势在于其可扩展性——可以高效地收集大规模数据，并且智能体可以使用一致的格式跨所有游戏进行预训练。

扩展实验证明，这种统一动作空间为实现通用智能体提供了卓越的基础。

当在大量的通用计算机使用数据语料库上进行训练后，基于统一动作空间的Game-TARS在《我的世界》中的表现比以前最先进的专家模型提高了约2倍。

正如开头demo中所展示的，研究进行了广泛评估：包括FPS游戏Vizdoom、3D模拟器Miniworld和在线网页游戏。

实验表明，Game-TARS 的迷你版本在各种任务上超越了著名的预训练模型，如Gemini-2.5-Pro 、GPT-5和Claude-4-Sonnet ，展示了在不同领域中的卓越性能。

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

此外，实验表明Game-TARS在训练和推理过程中都具有可扩展性。

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

总的来说，Game-TARS依靠简单、通用的原生键盘和鼠标动作空间，实现了大规模跨领域训练。

这一设计不仅提升了智能体的扩展性，也为未来在更多任务和环境中的泛化能力奠定了基础。

One more thing

Game-TARS的第一作者是北京大学人工智能研究院博士生——王子豪。

王子豪师从梁一韬教授，主要研究方向聚焦于开放式通用智能体的构建，涵盖计算机应用、具身游戏与深度研究等领域，致力于通过大型预训练模型提升智能体的泛化与自主能力。

字节发布通用游戏智能体！5000亿token训练，用鼠标键盘吊打GPT-5！

目前，他在字节跳动Seed团队担任研究实习生。

参考链接

[1]https://arxiv.org/pdf/2510.23691

[2]https://zhwang4ai.github.io/

文章来自于微信公众号 “量子位”，作者 “量子位”

关键词: 模型训练 , AI新闻 , Game-TARS , 游戏智能体 , AI玩游戏

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales