游戏+AI的最终核心是好玩|MonoX

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
游戏+AI的最终核心是好玩|MonoX
5939点击    2025-07-28 10:59

当前AI应用层,无数创业者都曾尝试或正走在AI+游戏的这条赛道上。AI正不断拓展游戏的边界,从赋予游戏角色(NPC)智慧,到自动化生成海量内容。然而,这条赛道并非坦途,性能、幻觉问题、玩家接受度等一系列难关等待从业者去克服。


近日Monolith与独立之光共同发起并举办MonoX「AI如何重塑游戏体验」线下活动 ,超过四十位游戏行业嘉宾齐聚上海,共同探寻AI+游戏的落地方案。


游戏+AI的最终核心是好玩|MonoX


在活动中各位游戏行业从业者们讨论了:


· AI融入游戏的性能瓶颈与解法


· 多模态模型在游戏领域的探索


· AI用于游戏剧情创作


· 当今AI+游戏生态:UGC平台、玩家、游戏公司


我们整理了活动的讨论内容并补充了一些信息,以文章的形式进行呈现,希望对大家有所帮助。


目录:


1. 性能挑战与工程解法


2. 多模态模型在游戏中的探索


3. AI参与剧情设计与内容创作

4. AI+游戏生态的现状与未来


5. Making It For Fun


1. 性能问题与工程解法


游戏+AI的首要核心矛盾是性能。


游戏需要实时响应,通常每帧的渲染和逻辑处理必须在约33毫秒内完成,不然会导致明显的迟滞感让玩家体验变差。然而当前大规模语言模型(LLM)一次推理往往需要数秒,无法满足NPC即时对话或决策的需求。此外,如果AI决策涉及多步推理或多次Function Calling,每增加一步都会使总延迟成倍增加,进一步恶化实时性。


针对这一问题,业界的解法是从工程角度寻求优化,而不单单指望硬件飞跃。几种实用的策略包括:


1. 约束生成:当AI的决策空间有限且可枚举时,可以强制模型只从合法选项中选择。这种方法能增强性能同时避免AI给出不合理的结果。


2. 延迟遮蔽:对于无法完全消除的AI响应延迟,游戏开发者常用游戏机制来掩盖。经验表明,如果1秒以下的延迟人们几乎察觉不到;1~1.5秒的延迟则可以通过播放角色过渡动画、特效或设计短暂交互来掩盖。


3. 新模型:使用新发布的高水平模型。例如,Google的Gemini 2.0 Flash模型推理速度可达每秒600个token,且保持了不错的智能水平。这让过去不可行的场景变成可能。同时这类模型的成本往往也不高,有从业者的经验证明每个用户每月只需约4元人民币即可负担持续的AI对话服务。


游戏+AI的最终核心是好玩|MonoX


Final Fantasy XIV


2. 多模态在游戏中的探索


除了文本对话和决策,AI在游戏中的应用还拓展到多模态生成领域,包括图像、语音、视频、音效等方面。


2.1 实时生成场景暂不可行


在游戏界有一种令人着迷的设想是使用AI让“玩家走到哪,游戏场景就实时生成到哪”,这意味着利用扩散模型等生成算法,动态创造游戏世界。


然而从实践看,这种实时扩散生成场景的玩法目前几乎不可行,一致性问题难以克服。如果玩家转身离开又回到同一地点,纯AI生成的场景细节往往已经改变,难以保持一个稳定且符合物理逻辑的世界。


因此,在常规题材游戏中,实时生成场景术暂时并不可行。唯一可能适用的场景,是将这种“不一致”本身作为特色,比如梦境、超现实主义主题的游戏,在那里场景的不稳定反而契合氛围。


2.2 语音合成的最新进展


高质量的语音合成技术对于提升游戏角色的沉浸感非常重要。目前商用的尖端TTS服务(如ElevenLabs的最新版)已经能够提供多样的音色选择,并允许通过提示词调节情绪语气。这些工具的单句自然度非常好。


游戏+AI的最终核心是好玩|MonoX


ElevenLabs


然而,其音质稳定性有待提高,尤其是在支持多语言方面,有时一种语言表现完美,换另一种语言效果就大打折扣。并且在生成较长台词时,模型有时会忘记前面的情绪设定,导致情感表现前后不一致。


当前TTS仍缺乏对上下文的深度理解和保持情感连贯的能力。但相应产品正在快速改进,近期一些TTS服务增加了“情境感知”能力,能够根据对话内容或角色状态自动调整声音情绪,使之更贴合场景。


对于追求定制化的游戏开发团队来说,市面产品往往无法满足全部需求,因此不少大厂选择自研TTS。目前来看,自研TTS虽投入不菲,但能够带来表现更好、错误更少的效果,满足大型游戏对个性化配音的高要求。


2.3 视频生成暂无法直接用于游戏内容生成


近两年AI视频生成技术取得了飞跃式进步,已经开始接近游戏开发“可用”的门槛。业界出现了一批工具和模型(如可灵、Veo3等),能够根据文本或图像生成高质量的短视频片段。


游戏+AI的最终核心是好玩|MonoX


Veo3


然而,当前的AI视频生成还带有很大的随机性,创作者往往需要反复尝试才能得到理想结果,也许需要生成10次甚至20次,才能抽到一段各方面都令人满意的视频片段。不同的视频模型各有擅长的题材,有的适合写实风,有的长于动画风,这需要创作者了解并选择合适的工具。在游戏开发中,这些工具目前更多用于制作宣传预告、剧情过场的原型等,并不能直接用于游戏内容的生成。


2.4 音效与配乐:短期内的尴尬处境


相较于图像和视频,AI在音效和音乐上的表现则要逊色许多。


目前尝试用AI生成各类游戏音效的效果往往不尽如人意。许多自动生成的音效听起来失真、生硬,缺乏人工精雕细琢的质感。从数据指标上看,AI音效和人工样本差距明显。大部分音效设计师对AI音效持否定态度:与其费时调整AI输出,不如直接从现有素材库里挑或让专业人士录制。


AI配乐方面也面临类似问题。尽管有如Suno等工具可以根据文字或哼唱快速生成音乐,但这些自动作曲工具缺乏精细编辑能力,生成结果难以直接用作严肃的游戏配乐。这对于讲究氛围和主题连贯性的游戏音乐来说几乎无法接受。目前AI配乐更多是用于娱乐或原型用途。在专业游戏项目中,音乐仍然是由人类作曲主导,AI暂时充当不了太多实质性的角色。


2.5 VLM在游戏中的应用


在如何让AI理解游戏环境这个问题里,理论上我们可以通过视觉语言模型(VLM)来分析游戏截图或视频帧,并转换成文字描述再供AI决策。然而实践证明,这种做法非常低效且奢侈。


视觉模型处理高分辨率游戏画面需要大量算力,提取的信息却未必精确。让AI从纯像素去推理空间关系、物体状态,难度极高、错误率大。


更高效的做法是利用游戏自身的结构化数据。开发者可以为游戏内的重要元素建立数据表和知识库,确保每个NPC、道具、技能都有清晰的描述。当AI需要了解当前环境时可以直接调用引擎接口获取结构化的信息,然后将这些查询结果整理成易读的文本或JSON格式,作为提示输入给大模型。这样大大提升了决策准确性和效率。


不过VLM还是有用武之地的。例如自动化QA测试。以往,游戏测试脚本常通过屏幕坐标来定位UI元素点击,这在不同分辨率、不同设备上很容易失效。而引入视觉识别后,测试AI可以理解界面上的文字和图标,然后按照指令操作。这种基于视觉语义的自动化测试克服了传统坐标系的局限,显著提高了游戏在多终端、多分辨率下测试的稳定性和效率。


3. AI参与剧情设计与内容创作


让AI参与剧情设计和内容创作是游戏领域另一大热点。


例如在开放世界和沙盒游戏中,人们希望AI带来更丰富多变的剧情走向;在游戏制作流程中,也期望AI自动生成对话、任务等内容来辅佐人类设计师。但AI生成内容的开发性又会给游戏本身带来叙事不可控的问题,如果控制不好有可能导致游戏的叙事不成立,破坏玩家的游玩体验。


在这一问题上,业界正在探索两条主要路径:系统技术层面的约束与叙事设计层面的引导。


3.1 系统技术层面约束


第一条思路比较激进但有趣:让幻觉变成现实。


即如果AI杜撰了某个元素,游戏引擎干脆即时地生成对应的物品或事件,把AI的意外创意纳入游戏世界。这么做的好处是为玩家创造了惊喜和动态性,但缺点是偶尔的惊喜很有趣,但如果任由AI不断往世界里加设定,久而久之整个游戏世界会变得混乱不堪。所以如果采用这条道路,那么必须设定明确的边界条件(例如重要剧情物品不允许AI虚构,或每小时最多引入一次随机事件等)以避免游戏失控。


第二条思路更偏工程层面:采用MoE架构。


MoE的思路是在一个大模型框架下,容纳多个“专家”子模型,每个专家擅长不同方面。例如,一个专家专门保证主角对白符合其性格设定;另一个专家监督世界观;还有专家负责特定领域知识的准确性。在实际生成时,由一个门控网络根据上下文智能调度各专家模型的作用权重。通过专家协作,AI生成内容既有天马行空的想象力,又不会做出明显违和甚至破坏游戏沉浸感的事情。


第三条思路是采用图数据库辅助复杂关系。


在大型开放世界或角色扮演游戏中,NPC之间可能存在错综复杂的社会关系,物品和事件之间也有庞大的关联网络。


游戏+AI的最终核心是好玩|MonoX


如果把所有这些关系用自然语言硬塞给AI模型,让它自己整理理解,不但token消耗巨大,模型也容易“大脑短路”产生幻觉式的错误关联。为解决这个问题,开发者越来越多地借助图数据库等专业存储来管理关系数据。当AI需要相关知识时,先查询图数据库得到精确的结构化答案,再将结果以文本形式提供给AI。这种方式比起让AI从零推理所有关系既高效又准确,而且避免了模型胡乱编造关系的情况。


3.2 叙事设计层面引导


还有一种从叙事层面的进路,这也是被迪士尼、梦工厂等内容创作团队采用过的思路:关键节点收束。


即不严格限定过程,但锁定几个关键事件。具体来说,编剧(在人类创作中)会预先设定故事中的若干重要节点或高潮情节(例如“7月7日主角必须在某地参加一场决斗”)。在这些节点之间,角色和剧情如何发展可以有相当大的弹性和自由。但无论过程如何发散,到时间点该触发的关键事件一定要发生,故事线会被拉回主轨道。这样既保证了故事的整体结构和主题不跑偏,又能享受到AI在细节和支线上的创造惊喜。


第二个叙事设计的思路是改变“Why”而非“What”。


即引导AI注重生成故事中原因和情感的变化,而非事件结果本身。玩家很多时候更看重的是参与感和叙事张力。早在AI时代之前,Telltale Games(代表作:《行尸走肉》)的互动叙事就提供了一个范本——无论玩家如何选择,对应剧情的大事件(What)走向几乎不变,但这些选择会深刻影响人物关系、动机(Why)以及情绪氛围。


游戏+AI的最终核心是好玩|MonoX


Telltale Games开发的多款游戏


这带给玩家一种“我的选择很重要”的体验,同时又不至于让剧情树无限分叉、无法收敛。在利用AI生成剧情时,可以重点要求AI针对玩家的行为改变角色态度、台词风格、情感反馈等“软变化”,而保持关键情节结果不脱轨。这样一来,玩家的体验千差万别(因为情感互动不同),但开发者依然对整体故事走向有掌控。


3.3 已落地方向


从业者们总结出了几个AI生成内容在游戏领域已经跑通的方向


1. 衍生与沙盒内容:对于主线剧情体验结束后的内容扩展,AI大有可为。比如在RPG游戏通关后,开放一个由AI驱动的沙盒世界或推出AI生成的MOD。这类衍生内容即使质量稍逊主线也无妨,贵在提供了无穷的新鲜感。


2. 游戏开发美术资产:AI目前已经广泛应用在游戏美术素材的生产中,特别是UI界面、小图标、纹理贴图等重复性高、要求相对标准的资产。美工只需给出一些提示,AI就能批量产出风格统一的图标,然后由美术进行少量修饰即可投入使用。


3. 内容营销素材:这是很多游戏公司已经在使用AI的最重要领域之一。为了在社交媒体上进行营销推广,往往需要大量的短视频、海报、文案。AI可以根据游戏角色和剧情,海量生成创意短视频脚本、美术素材等,然后人工筛选、调整后发布到抖音、Twitter等平台。目前不少厂商已经把AI文案和AI视频生成作为标准化pipeline的一部分,用AI的高产出满足营销对内容数量和频次的需求。


归纳而言,辅助性内容和重复性素材是AI创作的用武之地。在这些领域,人类创作者给出方向,AI负责“填充”和“变体”,可以有效提升效率。而在核心剧情、角色塑造这些对创意要求极高的部分,目前AI还难以独立胜任,但可以扮演辅助角色。


4. AI+游戏生态的现状与未来


4.1 游戏厂商:Epic Games的实践


Epic Games最近展示了他们在游戏引擎生态中融合AI的最新成果。


其中最引人注目的是在《Fortnite(堡垒之夜)》中加入了会话式AI角色的尝试:官方先是在游戏中推出了一位能够讲话的达斯·维达NPC,玩家可以通过语音与该NPC对话提问,AI根据玩家的话生成达斯·维达风格的回应,实现实时互动体验。


此外,他们宣布将推出一个名为Persona Device的新工具,让所有《堡垒之夜》创作者都能在自定义地图中赋予NPC类似的对话能力。通过堡垒之夜的虚幻编辑器,创作者可以为NPC设定人格背景、知识范围、对话风格等,让其变成独一无二的互动角色。


除了游戏内NPC,Epic还在开发者工具层面引入AI,提升内容制作效率。他们展示了Epic Developer Assistant,这是集成在UEFN中的一款AI聊天机器人助手。开发者在编写堡垒之夜的脚本,可以随时向助手提问,类似于Copilot。通过这一工具,新手制作者也能更快上手复杂的游戏引擎脚本,大大降低创造门槛。


Epic的动作代表了游戏厂商正向AI时代演进的一股潮流:官方亲自示范AI在实际游戏中的应用(增强NPC体验),并将相应技术和工具开放给开发者群体,让AI真正开始融入现有生态。


游戏+AI的最终核心是好玩|MonoX


4.2 UGC平台:Roblox的案例


Roblox发布了名为“Cube”的3D生成模型,并将其开源推出。


Cube模型的首个功能是3D网格生成。开发者只需输入一段描述,AI即可自动生成相应的3D模型,并且生成的模型可以导入Roblox Studio继续微调,以满足游戏需求。这极大降低了UGC创作者制作模型的门槛。并且Roblox将Cube的底层模型以开放源代码形式发布,任何开发者都可以拿去微调自己的数据或制作插件,将其融入自家项目。


除了3D模型生成,Roblox还宣布了其他三项AI功能,包括文本生成(剧情对话等)、文本转语音(TTS)和语音转文本(STT)。文本生成可以让开发者给NPC添加交互式对话,实现玩家与角色的自然语言交流;TTS则方便为游戏即时配音,STT允许玩家用语音控制游戏。这些工具计划在数月内上线,将进一步提升UGC创作的效率和表现力。


Roblox的策略代表了大型UGC平台对AI的开放与拥抱态度。对于该类平台来说,用户创作的活跃度是平台生命力所在,而AI正是放大创作能量的利器。


4.3 玩家端的变化:个性化机遇与新受众


对于玩家而言,AI在游戏中的深入应用将带来两方面影响:一是现有核心玩家的体验升级,二是全新玩家群体的诞生


在核心玩家市场,目前AI对玩家最直接的价值还体现在开发者降本增效上——更快的开发周期和更低的成本,有望带来更丰富的内容更新和更稳定的游戏品质。真正能打动核心玩家的钱包的AI游戏还需要等AI内容质量进一步提升。


其中被寄予厚望的一个方向是极致的个性化体验。以乙女游戏为例,传统模式下所有玩家共享同一男主和剧情,这难免限制了代入感。而通过AI,每个玩家理论上可以拥有独一无二的虚拟恋人。这将解决当前这类游戏的最大痛点,带来前所未有的沉浸感。当然,要实现这一点,AI生成内容的水准必须足够高,让玩家真心认可自己面前的是一个鲜活丰满的角色,而非模式化的机器脚本。


因为如今存在有玩家群体对AI生成内容抱有抵触。一群核心玩家自发在游戏中寻找任何疑似AI创作的痕迹,并在论坛上声讨揭露。他们认为游戏是一种艺术作品,如果某部分由AI生成而非出自设计师之手,就是对玩家的欺骗。这提醒开发者透明度和质量是AI内容能否被玩家接受的关键。如果AI的痕迹过重,让人一眼看穿是“机器拼出来的”,玩家很容易出戏,反感情绪也会增加。因此在将AI内容呈献给玩家时,至少应确保其质量足以乱真或足够有趣,否则宁可不用


另一方面,AI有潜力拓展出全新的游戏增量市场,吸引那些原本不怎么玩游戏的人群。设想一款游戏式应用,用户在焦虑时打开,它会通过AI角色引导用户呼吸放松、倾听用户倾诉,甚至根据用户情绪生成一个小故事安慰TA。这算不上传统游戏,却满足了人们的情绪价值需求。类似的产品正在出现。这类产品将触达那些追求情绪共鸣的广泛用户群,或成为游戏行业新的增长点。


4.4 未来展望:从AI编程到双驱动模式


展望未来3~5年,业界普遍认为真正规模化的游戏内容AIGC(AI Generated Content)不会是某一天一个端到端超级AI模型横空出世、一举取代现有引擎和工具的剧变场景。更可能的是一种渐进融合,其中AI成为游戏开发者本身的助手甚至代理。


有一种设想是“AI-Coding实现的AIGC”:即培养一个超级AI Agent,让它学会像人类程序员那样使用各种现有开发工具和资源来做游戏。这个AI可以根据设计意图,调用游戏引擎执行逻辑、用DCC软件生成美术资源、调用接口部署服务器等,相当于一个通晓开发流程的全栈工程师。


在完全自动化创造之前,我们可能会经历一个AI-UGC阶段。例如游戏官方可以引入AI来根据玩家输入动态生成部分内容,同时收集大量的玩家偏好数据、交互Prompt,不断微调培养一个专属该游戏的AI模型。随着时间推移,这个模型对该游戏的理解和生成能力越来越强,甚至达到可以接管部分策划、美术工作的程度。


另一个值得关注的趋势是“双驱动”AI架构。指的是未来的游戏AI系统很可能由传统的结构化逻辑(规则引擎、物理引擎、行为树等)和大语言模型两部分组成,各展所长。一方面,用结构化逻辑保障游戏世界的统一性和硬规则不被破坏(这正是纯LLM的弱项,LLM不擅长严格遵守某套规则体系);另一方面,用LLM的生成能力来提供千变万化的对话、剧情和其他软内容。可以想象,在未来的LLM框架中,会出现类似图像生成领域ControlNet的组件或方法,用以在生成过程中施加约束,确保输出符合游戏逻辑需求。


5. Making It For Fun


AI技术与游戏行业总在发展,前沿的方向与尝试也层出不穷,但如果想要判断一个游戏AI项目是否值得做,有创业者总结出了四个问题:


1. 它能否做到人类做不到的事?


2. 它能否比人类更可靠(更少出错、更稳定)?


3. 它能否比人类做得更好(质量更高、体验更佳)?


4. 如果以上都不行,它能否做得更便宜?


如果一个AI应用在以上任一方面有显著优势,那就具备价值,否则就可能只是噱头。


例如AI生成无数支线剧情,人类也可以写,但AI也许更便宜更快,这也是意义所在。但如果AI做出的东西既不新奇质量又差还成本高,那玩家和市场都不会买账。创业者应当警惕“为了AI而AI”的倾向。


游戏的核心是好玩(Fun),而不是真实或无限可能性。过分追求后者反而容易让游戏变得无聊。


毕竟,玩家玩游戏,是希望与制作者精心设计的世界观、剧情、玩法产生互动和共鸣。如果把一切都交给AI随机关联,缺乏精心打磨的内容很难触动人心。


设计感和节奏仍是游戏体验的灵魂所在,AI应服务于它,而非淹没它。


文章来自于微信公众号“Monolith砺思资本”,作者是“Monolith”。


关键词: AI新闻 , AI游戏 , MonoX , 人工智能
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
AI 3D建模

【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。

项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用:https://replicate.com/camenduru/lgm

3
知识库

【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。

项目地址:https://github.com/labring/FastGPT

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

6
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales