字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!
7040点击    2025-11-01 09:42

用鼠标和键盘打游戏的智能体,这就来了!


它不仅能在《我的世界》中和普通玩家一较高下。

字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!


还能玩《神庙逃亡》、《星露谷》,甚至可以在未见过的3D网页游戏中实现零样本迁移。

字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!


而这,都是由字节seed团队打造的通用型游戏智能体——Game-TARS完成的。


Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练,可在操作系统、网页与模拟环境中进行大规模预训练。


依托超5000亿标注量级的多模态训练数据,结合稀疏推理(Sparse-Thinking) 衰减持续损失(decaying continual loss),大幅提升了智能体的可扩展性和泛化性。


在FPS、开放世界、WEB游戏等任务中,它的表现超越了GPT-5Gemini-2.5-ProClaude-4-Sonnet


字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!


这是怎么做到的?


像人一样用键盘和鼠标打游戏


Game-TARS的核心创新在于,让智能体不再“调用函数打游戏”,而是像人一样用键盘和鼠标操作


字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!


也就是说,它不只是简单地执行指令,而是真正通过模拟人类操作的方式完成游戏中的每一个动作。


相比之下,传统智能体通常依赖为特定环境定制的动作集:


  • 在MCP或Code层,它们可以直接调用Search(query)完成搜索,无需打开界面或点击按钮。
  • 在GUI层则执行封装好的系统动作,如“双击”或“按下热键”。


这些方式虽然高效,却缺乏通用性。一旦换个操作系统或应用环境,智能体就束手无策。


为解决这个问题,Game-TARS专注于最底层的Human Actions(人类动作)


  • mouseMove(dx, dy):鼠标相对移动,包括x轴和y轴。
  • mouseClick(buttons):鼠标点击,如左键、右键或中键。
  • keyPress(xkeys):键盘按键,包括单个按键和按键组合。


这种设计使智能体的动作指令集与任何特定应用或操作系统解耦,实现了与人类用户物理交互方式的直接对齐——


Human-Native Interaction(人类自然交互)


由此,Game-TARS定义了一个可扩展、统一的动作空间,让智能体告别高层级指令,直接动手“玩”,极大地提高了可扩展性和泛化性。


字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!


训练过程


与传统游戏机器人或模块化人工智能不同,Game-TARS将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型(VLM)中。


智能体无需针对每款游戏编写特定代码或规则,就能自主学习操作,并在各种游戏中完成任务。


为实现这一点,Game-TARS将该智能体构建为一个自回归的、参数化的策略,并利用统一的键盘—鼠标动作空间进行训练,包括持续预训练后训练两个阶段,


字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!


在预训练阶段,团队采用的ReAct范式,结合稀疏推理(Sparse Thinking)——只在关键决策点交错进行推理和行动,以模拟人类认知模式。


具体做法包括:


  • 离线思维链 + 在线“边做边说”(Think-Aloud):标注者在执行任务时,通过音频实时表达思考,生成原生、即时推理的ReAct序列。
  • 多模态同步采集:系统并行录制屏幕帧、鼠标键盘输入及音频,然后通过ASR转文字,再用大语言模型去噪、增强逻辑。
  • 视觉锚点因果对齐:用屏幕鼠标光标作为锚点,精确对齐每个动作信号到其执行帧,恢复因果链。
  • 轨迹构建与优化:两帧间的所有键鼠操作合并为动作事件,无操作标记为no-op;推理时间戳重定位到语义相关的动作,生成高度同步、因果一致的训练序列。


此外,为了解决“行为惯性”问题,Game-TARS引入了指数衰减权重,对连续重复动作按指数降低权重,确保新动作获得足够关注,让模型更专注于高熵动作转变,学习出更稳健、泛化能力更强的策略。


字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!


在超过2万小时、约5000亿token的游戏数据上大规模预训练后,研究进入后训练阶段,进一步强化智能体在特定任务中的执行能力和交互智能,重点提升三大核心能力:


  • 指令遵循:随机替换按键绑定(如把W换成X代表“向前”),迫使模型依赖系统提示理解动作语义。同时让模型基于当前帧预测中间动作,加深对动作—状态因果关系的理解。
  • 稀疏思维能力:定位关键决策点,只在高熵步骤增强推理;通过拒绝微调(rejection fine-tuning)强化高效稀疏思维,让智能体学会在关键时刻深思熟虑。
  • 长期记忆:引入双层记忆机制——短期记忆保存最新图像,长期记忆只保留精炼的稀疏思维文本。


此外,为了将能力扩展到游戏以外,后训练还引入了跨领域轨迹数据,包括代码生成、GUI 自动化和科研任务,帮助 Game-TARS从游戏玩家成长为多功能通用计算机用户


字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!


在具体的训练细节上,研究采用了统一的、单阶段的持续预训练方法,将所有数据源融合在一起,并对模型进行了超过5000亿个token的训练。


在后训练阶段,对约200亿个精心策划的高质量token进行了微调。


实验验证


研究首先通过在《我的世界》中测试智能体的能力,验证了统一动作空间和大规模持续预训练的有效性。


字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!


与grounding-based或基于API的动作不同,研究发现统一动作空间在训练数据少于10B时,最初在成功率方面并未超越基于GUI动作的智能体。


然而,统一动作空间的关键优势在于其可扩展性——可以高效地收集大规模数据,并且智能体可以使用一致的格式跨所有游戏进行预训练。


扩展实验证明,这种统一动作空间为实现通用智能体提供了卓越的基础。


当在大量的通用计算机使用数据语料库上进行训练后,基于统一动作空间的Game-TARS在《我的世界》中的表现比以前最先进的专家模型提高了约2倍。


正如开头demo中所展示的,研究进行了广泛评估:包括FPS游戏Vizdoom、3D模拟器Miniworld和在线网页游戏 。


实验表明,Game-TARS 的迷你版本在各种任务上超越了著名的预训练模型,如Gemini-2.5-Pro 、GPT-5和Claude-4-Sonnet ,展示了在不同领域中的卓越性能。


字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!


此外,实验表明Game-TARS在训练和推理过程中都具有可扩展性。


字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!


总的来说,Game-TARS依靠简单、通用的原生键盘和鼠标动作空间,实现了大规模跨领域训练。


这一设计不仅提升了智能体的扩展性,也为未来在更多任务和环境中的泛化能力奠定了基础。


One more thing


Game-TARS的第一作者是北京大学人工智能研究院博士生——王子豪


王子豪师从梁一韬教授,主要研究方向聚焦于开放式通用智能体的构建,涵盖计算机应用、具身游戏与深度研究等领域,致力于通过大型预训练模型提升智能体的泛化与自主能力。


字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!


目前,他在字节跳动Seed团队担任研究实习生。


参考链接


[1]https://arxiv.org/pdf/2510.23691


[2]https://zhwang4ai.github.io/


文章来自于微信公众号 “量子位”,作者 “量子位”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales