游戏+AI的最终核心是好玩

游戏+AI的最终核心是好玩｜MonoX

8598点击 2025-07-28 10:59

当前AI应用层，无数创业者都曾尝试或正走在AI+游戏的这条赛道上。AI正不断拓展游戏的边界，从赋予游戏角色（NPC）智慧，到自动化生成海量内容。然而，这条赛道并非坦途，性能、幻觉问题、玩家接受度等一系列难关等待从业者去克服。

近日Monolith与独立之光共同发起并举办MonoX「AI如何重塑游戏体验」线下活动 ，超过四十位游戏行业嘉宾齐聚上海，共同探寻AI+游戏的落地方案。

游戏+AI的最终核心是好玩｜MonoX

在活动中各位游戏行业从业者们讨论了：

· AI融入游戏的性能瓶颈与解法

· 多模态模型在游戏领域的探索

· AI用于游戏剧情创作

· 当今AI+游戏生态：UGC平台、玩家、游戏公司

我们整理了活动的讨论内容并补充了一些信息，以文章的形式进行呈现，希望对大家有所帮助。

目录：

1. 性能挑战与工程解法

2. 多模态模型在游戏中的探索

3. AI参与剧情设计与内容创作

4. AI+游戏生态的现状与未来

5. Making It For Fun

1. 性能问题与工程解法

游戏+AI的首要核心矛盾是性能。

游戏需要实时响应，通常每帧的渲染和逻辑处理必须在约33毫秒内完成，不然会导致明显的迟滞感让玩家体验变差。然而当前大规模语言模型（LLM）一次推理往往需要数秒，无法满足NPC即时对话或决策的需求。此外，如果AI决策涉及多步推理或多次Function Calling，每增加一步都会使总延迟成倍增加，进一步恶化实时性。

针对这一问题，业界的解法是从工程角度寻求优化，而不单单指望硬件飞跃。几种实用的策略包括：

1. 约束生成：当AI的决策空间有限且可枚举时，可以强制模型只从合法选项中选择。这种方法能增强性能同时避免AI给出不合理的结果。

2. 延迟遮蔽：对于无法完全消除的AI响应延迟，游戏开发者常用游戏机制来掩盖。经验表明，如果1秒以下的延迟人们几乎察觉不到；1~1.5秒的延迟则可以通过播放角色过渡动画、特效或设计短暂交互来掩盖。

3. 新模型：使用新发布的高水平模型。例如，Google的Gemini 2.0 Flash模型推理速度可达每秒600个token，且保持了不错的智能水平。这让过去不可行的场景变成可能。同时这类模型的成本往往也不高，有从业者的经验证明每个用户每月只需约4元人民币即可负担持续的AI对话服务。

游戏+AI的最终核心是好玩｜MonoX

Final Fantasy XIV

2. 多模态在游戏中的探索

除了文本对话和决策，AI在游戏中的应用还拓展到多模态生成领域，包括图像、语音、视频、音效等方面。

2.1 实时生成场景暂不可行

在游戏界有一种令人着迷的设想是使用AI让“玩家走到哪，游戏场景就实时生成到哪”，这意味着利用扩散模型等生成算法，动态创造游戏世界。

然而从实践看，这种实时扩散生成场景的玩法目前几乎不可行，一致性问题难以克服。如果玩家转身离开又回到同一地点，纯AI生成的场景细节往往已经改变，难以保持一个稳定且符合物理逻辑的世界。

因此，在常规题材游戏中，实时生成场景术暂时并不可行。唯一可能适用的场景，是将这种“不一致”本身作为特色，比如梦境、超现实主义主题的游戏，在那里场景的不稳定反而契合氛围。

2.2 语音合成的最新进展

高质量的语音合成技术对于提升游戏角色的沉浸感非常重要。目前商用的尖端TTS服务（如ElevenLabs的最新版）已经能够提供多样的音色选择，并允许通过提示词调节情绪语气。这些工具的单句自然度非常好。

游戏+AI的最终核心是好玩｜MonoX

ElevenLabs

然而，其音质稳定性有待提高，尤其是在支持多语言方面，有时一种语言表现完美，换另一种语言效果就大打折扣。并且在生成较长台词时，模型有时会忘记前面的情绪设定，导致情感表现前后不一致。

当前TTS仍缺乏对上下文的深度理解和保持情感连贯的能力。但相应产品正在快速改进，近期一些TTS服务增加了“情境感知”能力，能够根据对话内容或角色状态自动调整声音情绪，使之更贴合场景。

对于追求定制化的游戏开发团队来说，市面产品往往无法满足全部需求，因此不少大厂选择自研TTS。目前来看，自研TTS虽投入不菲，但能够带来表现更好、错误更少的效果，满足大型游戏对个性化配音的高要求。

2.3 视频生成暂无法直接用于游戏内容生成

近两年AI视频生成技术取得了飞跃式进步，已经开始接近游戏开发“可用”的门槛。业界出现了一批工具和模型（如可灵、Veo3等），能够根据文本或图像生成高质量的短视频片段。

游戏+AI的最终核心是好玩｜MonoX

Veo3

然而，当前的AI视频生成还带有很大的随机性，创作者往往需要反复尝试才能得到理想结果，也许需要生成10次甚至20次，才能抽到一段各方面都令人满意的视频片段。不同的视频模型各有擅长的题材，有的适合写实风，有的长于动画风，这需要创作者了解并选择合适的工具。在游戏开发中，这些工具目前更多用于制作宣传预告、剧情过场的原型等，并不能直接用于游戏内容的生成。

2.4 音效与配乐：短期内的尴尬处境

相较于图像和视频，AI在音效和音乐上的表现则要逊色许多。

目前尝试用AI生成各类游戏音效的效果往往不尽如人意。许多自动生成的音效听起来失真、生硬，缺乏人工精雕细琢的质感。从数据指标上看，AI音效和人工样本差距明显。大部分音效设计师对AI音效持否定态度：与其费时调整AI输出，不如直接从现有素材库里挑或让专业人士录制。

AI配乐方面也面临类似问题。尽管有如Suno等工具可以根据文字或哼唱快速生成音乐，但这些自动作曲工具缺乏精细编辑能力，生成结果难以直接用作严肃的游戏配乐。这对于讲究氛围和主题连贯性的游戏音乐来说几乎无法接受。目前AI配乐更多是用于娱乐或原型用途。在专业游戏项目中，音乐仍然是由人类作曲主导，AI暂时充当不了太多实质性的角色。

2.5 VLM在游戏中的应用

在如何让AI理解游戏环境这个问题里，理论上我们可以通过视觉语言模型（VLM）来分析游戏截图或视频帧，并转换成文字描述再供AI决策。然而实践证明，这种做法非常低效且奢侈。

视觉模型处理高分辨率游戏画面需要大量算力，提取的信息却未必精确。让AI从纯像素去推理空间关系、物体状态，难度极高、错误率大。

更高效的做法是利用游戏自身的结构化数据。开发者可以为游戏内的重要元素建立数据表和知识库，确保每个NPC、道具、技能都有清晰的描述。当AI需要了解当前环境时可以直接调用引擎接口获取结构化的信息，然后将这些查询结果整理成易读的文本或JSON格式，作为提示输入给大模型。这样大大提升了决策准确性和效率。

不过VLM还是有用武之地的。例如自动化QA测试。以往，游戏测试脚本常通过屏幕坐标来定位UI元素点击，这在不同分辨率、不同设备上很容易失效。而引入视觉识别后，测试AI可以理解界面上的文字和图标，然后按照指令操作。这种基于视觉语义的自动化测试克服了传统坐标系的局限，显著提高了游戏在多终端、多分辨率下测试的稳定性和效率。

3. AI参与剧情设计与内容创作

让AI参与剧情设计和内容创作是游戏领域另一大热点。

例如在开放世界和沙盒游戏中，人们希望AI带来更丰富多变的剧情走向；在游戏制作流程中，也期望AI自动生成对话、任务等内容来辅佐人类设计师。但AI生成内容的开发性又会给游戏本身带来叙事不可控的问题，如果控制不好有可能导致游戏的叙事不成立，破坏玩家的游玩体验。

在这一问题上，业界正在探索两条主要路径：系统技术层面的约束与叙事设计层面的引导。

3.1 系统技术层面约束

第一条思路比较激进但有趣：让幻觉变成现实。

即如果AI杜撰了某个元素，游戏引擎干脆即时地生成对应的物品或事件，把AI的意外创意纳入游戏世界。这么做的好处是为玩家创造了惊喜和动态性，但缺点是偶尔的惊喜很有趣，但如果任由AI不断往世界里加设定，久而久之整个游戏世界会变得混乱不堪。所以如果采用这条道路，那么必须设定明确的边界条件（例如重要剧情物品不允许AI虚构，或每小时最多引入一次随机事件等）以避免游戏失控。

第二条思路更偏工程层面：采用MoE架构。

MoE的思路是在一个大模型框架下，容纳多个“专家”子模型，每个专家擅长不同方面。例如，一个专家专门保证主角对白符合其性格设定；另一个专家监督世界观；还有专家负责特定领域知识的准确性。在实际生成时，由一个门控网络根据上下文智能调度各专家模型的作用权重。通过专家协作，AI生成内容既有天马行空的想象力，又不会做出明显违和甚至破坏游戏沉浸感的事情。

第三条思路是采用图数据库辅助复杂关系。

在大型开放世界或角色扮演游戏中，NPC之间可能存在错综复杂的社会关系，物品和事件之间也有庞大的关联网络。

游戏+AI的最终核心是好玩｜MonoX

如果把所有这些关系用自然语言硬塞给AI模型，让它自己整理理解，不但token消耗巨大，模型也容易“大脑短路”产生幻觉式的错误关联。为解决这个问题，开发者越来越多地借助图数据库等专业存储来管理关系数据。当AI需要相关知识时，先查询图数据库得到精确的结构化答案，再将结果以文本形式提供给AI。这种方式比起让AI从零推理所有关系既高效又准确，而且避免了模型胡乱编造关系的情况。

3.2 叙事设计层面引导

还有一种从叙事层面的进路，这也是被迪士尼、梦工厂等内容创作团队采用过的思路：关键节点收束。

即不严格限定过程，但锁定几个关键事件。具体来说，编剧（在人类创作中）会预先设定故事中的若干重要节点或高潮情节（例如“7月7日主角必须在某地参加一场决斗”）。在这些节点之间，角色和剧情如何发展可以有相当大的弹性和自由。但无论过程如何发散，到时间点该触发的关键事件一定要发生，故事线会被拉回主轨道。这样既保证了故事的整体结构和主题不跑偏，又能享受到AI在细节和支线上的创造惊喜。

第二个叙事设计的思路是改变“Why”而非“What”。

即引导AI注重生成故事中原因和情感的变化，而非事件结果本身。玩家很多时候更看重的是参与感和叙事张力。早在AI时代之前，Telltale Games（代表作：《行尸走肉》）的互动叙事就提供了一个范本——无论玩家如何选择，对应剧情的大事件（What）走向几乎不变，但这些选择会深刻影响人物关系、动机（Why）以及情绪氛围。

游戏+AI的最终核心是好玩｜MonoX

Telltale Games开发的多款游戏

这带给玩家一种“我的选择很重要”的体验，同时又不至于让剧情树无限分叉、无法收敛。在利用AI生成剧情时，可以重点要求AI针对玩家的行为改变角色态度、台词风格、情感反馈等“软变化”，而保持关键情节结果不脱轨。这样一来，玩家的体验千差万别（因为情感互动不同），但开发者依然对整体故事走向有掌控。

3.3 已落地方向

从业者们总结出了几个AI生成内容在游戏领域已经跑通的方向

1. 衍生与沙盒内容：对于主线剧情体验结束后的内容扩展，AI大有可为。比如在RPG游戏通关后，开放一个由AI驱动的沙盒世界或推出AI生成的MOD。这类衍生内容即使质量稍逊主线也无妨，贵在提供了无穷的新鲜感。

2. 游戏开发美术资产：AI目前已经广泛应用在游戏美术素材的生产中，特别是UI界面、小图标、纹理贴图等重复性高、要求相对标准的资产。美工只需给出一些提示，AI就能批量产出风格统一的图标，然后由美术进行少量修饰即可投入使用。

3. 内容营销素材：这是很多游戏公司已经在使用AI的最重要领域之一。为了在社交媒体上进行营销推广，往往需要大量的短视频、海报、文案。AI可以根据游戏角色和剧情，海量生成创意短视频脚本、美术素材等，然后人工筛选、调整后发布到抖音、Twitter等平台。目前不少厂商已经把AI文案和AI视频生成作为标准化pipeline的一部分，用AI的高产出满足营销对内容数量和频次的需求。

归纳而言，辅助性内容和重复性素材是AI创作的用武之地。在这些领域，人类创作者给出方向，AI负责“填充”和“变体”，可以有效提升效率。而在核心剧情、角色塑造这些对创意要求极高的部分，目前AI还难以独立胜任，但可以扮演辅助角色。

4. AI+游戏生态的现状与未来

4.1 游戏厂商：Epic Games的实践

Epic Games最近展示了他们在游戏引擎生态中融合AI的最新成果。

其中最引人注目的是在《Fortnite（堡垒之夜）》中加入了会话式AI角色的尝试：官方先是在游戏中推出了一位能够讲话的达斯·维达NPC，玩家可以通过语音与该NPC对话提问，AI根据玩家的话生成达斯·维达风格的回应，实现实时互动体验。

此外，他们宣布将推出一个名为Persona Device的新工具，让所有《堡垒之夜》创作者都能在自定义地图中赋予NPC类似的对话能力。通过堡垒之夜的虚幻编辑器，创作者可以为NPC设定人格背景、知识范围、对话风格等，让其变成独一无二的互动角色。

除了游戏内NPC，Epic还在开发者工具层面引入AI，提升内容制作效率。他们展示了Epic Developer Assistant，这是集成在UEFN中的一款AI聊天机器人助手。开发者在编写堡垒之夜的脚本，可以随时向助手提问，类似于Copilot。通过这一工具，新手制作者也能更快上手复杂的游戏引擎脚本，大大降低创造门槛。

Epic的动作代表了游戏厂商正向AI时代演进的一股潮流：官方亲自示范AI在实际游戏中的应用（增强NPC体验），并将相应技术和工具开放给开发者群体，让AI真正开始融入现有生态。

游戏+AI的最终核心是好玩｜MonoX

4.2 UGC平台：Roblox的案例

Roblox发布了名为“Cube”的3D生成模型，并将其开源推出。

Cube模型的首个功能是3D网格生成。开发者只需输入一段描述，AI即可自动生成相应的3D模型，并且生成的模型可以导入Roblox Studio继续微调，以满足游戏需求。这极大降低了UGC创作者制作模型的门槛。并且Roblox将Cube的底层模型以开放源代码形式发布，任何开发者都可以拿去微调自己的数据或制作插件，将其融入自家项目。

除了3D模型生成，Roblox还宣布了其他三项AI功能，包括文本生成（剧情对话等）、文本转语音（TTS）和语音转文本（STT）。文本生成可以让开发者给NPC添加交互式对话，实现玩家与角色的自然语言交流；TTS则方便为游戏即时配音，STT允许玩家用语音控制游戏。这些工具计划在数月内上线，将进一步提升UGC创作的效率和表现力。

Roblox的策略代表了大型UGC平台对AI的开放与拥抱态度。对于该类平台来说，用户创作的活跃度是平台生命力所在，而AI正是放大创作能量的利器。

4.3 玩家端的变化：个性化机遇与新受众

对于玩家而言，AI在游戏中的深入应用将带来两方面影响：一是现有核心玩家的体验升级，二是全新玩家群体的诞生。

在核心玩家市场，目前AI对玩家最直接的价值还体现在开发者降本增效上——更快的开发周期和更低的成本，有望带来更丰富的内容更新和更稳定的游戏品质。真正能打动核心玩家的钱包的AI游戏还需要等AI内容质量进一步提升。

其中被寄予厚望的一个方向是极致的个性化体验。以乙女游戏为例，传统模式下所有玩家共享同一男主和剧情，这难免限制了代入感。而通过AI，每个玩家理论上可以拥有独一无二的虚拟恋人。这将解决当前这类游戏的最大痛点，带来前所未有的沉浸感。当然，要实现这一点，AI生成内容的水准必须足够高，让玩家真心认可自己面前的是一个鲜活丰满的角色，而非模式化的机器脚本。

因为如今存在有玩家群体对AI生成内容抱有抵触。一群核心玩家自发在游戏中寻找任何疑似AI创作的痕迹，并在论坛上声讨揭露。他们认为游戏是一种艺术作品，如果某部分由AI生成而非出自设计师之手，就是对玩家的欺骗。这提醒开发者透明度和质量是AI内容能否被玩家接受的关键。如果AI的痕迹过重，让人一眼看穿是“机器拼出来的”，玩家很容易出戏，反感情绪也会增加。因此在将AI内容呈献给玩家时，至少应确保其质量足以乱真或足够有趣，否则宁可不用。

另一方面，AI有潜力拓展出全新的游戏增量市场，吸引那些原本不怎么玩游戏的人群。设想一款游戏式应用，用户在焦虑时打开，它会通过AI角色引导用户呼吸放松、倾听用户倾诉，甚至根据用户情绪生成一个小故事安慰TA。这算不上传统游戏，却满足了人们的情绪价值需求。类似的产品正在出现。这类产品将触达那些追求情绪共鸣的广泛用户群，或成为游戏行业新的增长点。

4.4 未来展望：从AI编程到双驱动模式

展望未来3~5年，业界普遍认为真正规模化的游戏内容AIGC（AI Generated Content）不会是某一天一个端到端超级AI模型横空出世、一举取代现有引擎和工具的剧变场景。更可能的是一种渐进融合，其中AI成为游戏开发者本身的助手甚至代理。

有一种设想是“AI-Coding实现的AIGC”：即培养一个超级AI Agent，让它学会像人类程序员那样使用各种现有开发工具和资源来做游戏。这个AI可以根据设计意图，调用游戏引擎执行逻辑、用DCC软件生成美术资源、调用接口部署服务器等，相当于一个通晓开发流程的全栈工程师。

在完全自动化创造之前，我们可能会经历一个AI-UGC阶段。例如游戏官方可以引入AI来根据玩家输入动态生成部分内容，同时收集大量的玩家偏好数据、交互Prompt，不断微调培养一个专属该游戏的AI模型。随着时间推移，这个模型对该游戏的理解和生成能力越来越强，甚至达到可以接管部分策划、美术工作的程度。

另一个值得关注的趋势是“双驱动”AI架构。指的是未来的游戏AI系统很可能由传统的结构化逻辑（规则引擎、物理引擎、行为树等）和大语言模型两部分组成，各展所长。一方面，用结构化逻辑保障游戏世界的统一性和硬规则不被破坏（这正是纯LLM的弱项，LLM不擅长严格遵守某套规则体系）；另一方面，用LLM的生成能力来提供千变万化的对话、剧情和其他软内容。可以想象，在未来的LLM框架中，会出现类似图像生成领域ControlNet的组件或方法，用以在生成过程中施加约束，确保输出符合游戏逻辑需求。

5. Making It For Fun

AI技术与游戏行业总在发展，前沿的方向与尝试也层出不穷，但如果想要判断一个游戏AI项目是否值得做，有创业者总结出了四个问题：

1. 它能否做到人类做不到的事？

2. 它能否比人类更可靠（更少出错、更稳定）？

3. 它能否比人类做得更好（质量更高、体验更佳）？

4. 如果以上都不行，它能否做得更便宜？

如果一个AI应用在以上任一方面有显著优势，那就具备价值，否则就可能只是噱头。

例如AI生成无数支线剧情，人类也可以写，但AI也许更便宜更快，这也是意义所在。但如果AI做出的东西既不新奇质量又差还成本高，那玩家和市场都不会买账。创业者应当警惕“为了AI而AI”的倾向。

游戏的核心是好玩（Fun），而不是真实或无限可能性。过分追求后者反而容易让游戏变得无聊。

毕竟，玩家玩游戏，是希望与制作者精心设计的世界观、剧情、玩法产生互动和共鸣。如果把一切都交给AI随机关联，缺乏精心打磨的内容很难触动人心。

设计感和节奏仍是游戏体验的灵魂所在，AI应服务于它，而非淹没它。

文章来自于微信公众号“Monolith砺思资本”，作者是“Monolith”。

关键词: AI新闻 , AI游戏 , MonoX , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI 3D建模

【开源免费】LGM是一个AI建模的项目，它可以将你上传的平面图片，变成一个3D的模型。
项目地址：https://github.com/3DTopia/LGM?tab=readme-ov-file
在线使用：https://replicate.com/camenduru/lgm

知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目，提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信，飞书的AI项目都基于该项目二次开发。
项目地址：https://github.com/labring/FastGPT

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales