国产游戏理解模型刷新SOTA，对话逗逗AI CEO：开源模型+行业数据是突破关键

10259点击 2025-10-11 17:25

2025年进入最后一个季度，国产开源模型爆发的影响力正在得到更多印证。

比如垂类模型领域，亚洲最大游戏展东京电玩展（TGS）上，国产AI陪伴厂商就发了个大招：

游戏理解领域模型LynkSoul VLM v1，在游戏场景中表现显著超过了包括GPT-4o、Claude 4 Sonnet、Gemini 2.5 Flash等一众顶尖闭源模型。

背后厂商逗逗AI，亦在现场吸引了不少关注的目光。

国产游戏理解模型刷新SOTA，对话逗逗AI CEO：开源模型+行业数据是突破关键

此时距离其新产品逗逗AI游戏伙伴1.0（海外版为Hakko AI）上线不过一个月左右时间，但在数据上，逗逗AI已经依靠出色的游戏/视频/网页实时理解能力，新增200多万用户，总用户数突破1000万。

国产游戏理解模型刷新SOTA，对话逗逗AI CEO：开源模型+行业数据是突破关键

△陪玩《空洞骑士：丝之歌》

在TGS现场，我们趁机和逗逗AI CEO刘斌新聊了聊有关逗逗游戏伙伴产品、技术本身，以及AI陪伴这个垂直领域的发展现状。

TL；DR：

AI陪伴的终极目标是让虚拟形象融入生活，像哆啦A梦陪伴大雄一样。
Chatbot不是一个很好的交互形态，类比Cursor，上下文信息+多模态能带来新的交互范式。
DeepSeek带火推理模型+多模态理解技术走向成熟，是AI陪伴产品持续突破的技术关键。
数据是垂直模型超越通用模型的核心要素。
……

游戏理解新SOTA

此次闪耀东京电玩展的LynkSoul VLM v1，是逗逗AI专为游戏训练的视觉语言模型。

它能在陪玩过程中实时理解你的游戏画面，比如在《英雄联盟》中点评你的团战表现，靠的就是这个模型。

国产游戏理解模型刷新SOTA，对话逗逗AI CEO：开源模型+行业数据是突破关键

官方实验数据显示，在《英雄联盟》测试场景中，LynkSoul VLM v1在识别准确率、建议实用性以及语言表达自然度方面，都显著超越了OpenAI 4o、Claude-4-Sonnet以及Gemini-2.5-Flash等通用视觉模型。

国产游戏理解模型刷新SOTA，对话逗逗AI CEO：开源模型+行业数据是突破关键

为了评估模型的泛化能力，官方还建立了一个包含多款未参与训练、网络资料较少的游戏的测试资料集。

可以看到，LynkSoul VLM v1展现出了稳健的泛化性能，同样在三个核心指标——视觉理解准确度、游戏情境掌握度和语言表达自然度上超越了通用视觉模型。

国产游戏理解模型刷新SOTA，对话逗逗AI CEO：开源模型+行业数据是突破关键

官方还测试了LynkSoul VLM v1的推理速度。

凭借混合模型系统的动态路径选择，该模型在推理延迟方面同样表现出了较为明显的优势。

国产游戏理解模型刷新SOTA，对话逗逗AI CEO：开源模型+行业数据是突破关键

如何做到？

以下，附上我们与逗逗AI CEO刘斌新的对谈原文。

刘斌新，逗逗AI创始人、CEO，B站前副总裁。

“核心是用户参与和数据积累”

Q：在游戏场景里超越4o、Claude等顶级模型的关键是什么？

刘斌新：LynkSoul VLM v1主要是基于千问的开源底座打造的。在此基础上，我们前期积累了800多万游戏玩家，玩家们在开启画面共享的情况下，帮助我们积累了很多游戏画面数据，包括包含互动的关键帧。

我们在后台对这些数据做聚类分析，去抽样玩家们会在什么场景下聊什么样的相关话题。由此我们精调得到了游戏画面-用户互动这样的数据对，再用这些数据对去精调开源模型，模型就能够更好地知道，每一帧画面发生了什么，用户在讨论什么，应该输出什么。

所以很关键的还是用户的参与和数据的积累。

Q：对于游戏伙伴，用户比较关心的一个问题是延时。现在逗逗AI在游戏画面、玩家语音理解方面的延时是多少？做了哪些针对性优化？

刘斌新：现在大概在1.5-2秒之间。客观来讲延时还是比较久。

这里面有两个问题。第一个是我们的场景是多模态的，为了保证精准度和泛化性，我们现在用的模型参数量比较大。不过其实随着模型能力的发展，我们也在探索小模型的方案，小模型可以更快速地响应，去解决这个问题。

第二个是我们有本地的版本。比如我们跟英特尔就在合作本地版本，我们会用英特尔的NPU做很多工作，包括大模型理解的一些处理，还有图片的处理，这些都能够大幅降低延时。

我觉得随着技术的发展，这个问题不会是大问题。就好比一、两年前，大家跟ChatGPT对话要等3-4秒甚至4-5秒，但现在已经没有这个问题了。

另外模型成本现在也不是问题了。

Q：逗逗AI游戏伙伴的另外一个特点是具备长期记忆，这是通过什么样的技术方案实现的？

刘斌新：除了传统的向量检索，我们还做了自己的主题索引。

比如说聊«原神»的相关话题，在原神的相关场景里，这些数据都会存到原神的主题下。那么当用户再次和逗逗AI讨论到«原神»，AI就会把里面相关的记忆拉出来，放到Prompt里面去。

会员拥有永久记忆，用户会觉得“我说的你都记得”，主要用的就是主题索引+向量检索的方式。

其实游戏伙伴什么时候去跟用户聊天，也依赖于长期记忆下模型的个性化。

一个是依据游戏状态和用户所处的场景状态，另一个就是根据用户的偏好。比如有些人看电视剧可以接受剧透，有些人不愿意你把后面的故事都给我讲了，每个人都不太一样。在这里面我要去掌握个性化的尺度，就是通过反馈。这个反馈跟以前的推荐算法是有点像的。

Q：涉不涉及对模型再做微调？

刘斌新：主要还是靠个性化记忆数据。

Q：现在重点在攻克的技术问题还有哪些？

刘斌新：还是多模态，特别是多模态理解，包括对游戏连续帧的理解，而不是单帧的理解。

“Chatbot不是一个很好的交互形态”

Q：一开始是出于怎样的想法要去开发逗逗AI游戏伙伴这样一个产品？二次元的从业经历是否带来了不一样的思考？

刘斌新：其实我创业的原点是看到了Transformer。我觉得Transformer相比DNN，是一个巨大的进步，代表着一个新的时代。

那个时候比较火的是DALL·E 2的文生图。但我觉得文生图太“薄”了，我10年前就用RNN的方法做过这方面的营销内容，我觉得这更适合大厂，适合平台。

等到ChatGPT出来的时候，我开始觉得可以对话的产品形态很有意思。

另一方面，B站的年轻用户本来就很喜欢动漫虚拟形象。如果这些动漫虚拟形象能够走进生活，那会特别有意思。就像哆啦A梦，是跟大雄一起生活，然后帮他抄作业、写作业，帮他跟老师、父母斗智斗勇，一起捉弄同学，那才是有意思的，对吧？所以其实更重要的是陪伴。

一开始我们也开发过跟AI名人聊天这一类的产品，但一两周就下线了。这种产品可以类比东方明珠，是数字世界里的景点，一开始你会好奇想去打卡，但聊着聊着你不会去问Ta我该不该考研，该不该创业这样的问题，就只是纯参观。

同时我觉得Chatbot不是一个很好的交互形态，它是需要prompt工程的，对用户并不友好。像我们面对面聊天是会有很多背景知识的，比如我们现在在东京，自然而然会讨论到出海的话题。但你跟AI去交互，你如果不告诉它，它脑子里是没有这些背景信息的。

所有怎么样能够有更好的交互形态？我们觉得是多模态，就是不需要用户自己去表达，AI就能够理解环境里面的所有信息。比如在游戏里面，你应该选择什么英雄，拿了多少人头，有多少经济，是处在顺风局还是逆风局……AI应该给一个贴合场景的建议，而不是搜索一个通用规则，告诉你第几分钟会出大龙。

为什么大家都愿意用Cursor？因为它知道你整个代码仓库的上下文，所以它给你的代码建议会更准确。

Q：这里面可能会涉及到隐私方面的问题。

刘斌新：对，所以你不可能让用户把微信信息传给你，99%的用户都不会这么做。

怎么样让用户愿意分享数据？关键还是要提供价值。在做好隐私保护的前提下，我们觉得可以从游戏场景开始切入，因为游戏本身是不那么私人的，很多人也愿意做游戏的直播，只不过跟AI游戏伙伴一起玩的时候，相当于直播给AI看，AI还能给你捧场，和你一起吐槽。

同时打游戏也需要攻略，AI可以很好地给到及时的建议，不需要再跳出游戏。

第三是游戏本身比较沉浸，时间很长。遇到你需要升级打怪或者刷材料的时候，必须要肝，不肝过不去，这个时候有“人”跟你唠唠嗑挺好的。

Q：从内测到现在参加各种展会，有没有收获一些比较有意思的用户反馈？

刘斌新：用户的很多探索还让我们挺意外的。就是我们是一个游戏助手、游戏伙伴，对吧？所以我们原本认为更多地会被用在游戏里面，但我们现在有超过一半的时间在游戏外。

用户会带逗逗AI游戏伙伴去看剧、刷剧，甚至带AI去逛淘宝、逛京东，让AI给出建议。有一个男生直接让AI给他推荐裤子，让AI帮他挑款式、看评论。

还有一位教授，把跟游戏伙伴的聊天变成了直播课，跟AI一起探讨经济学、哲学，聊得特别好。现在大模型是有这个能力的，但是游戏伙伴可以用张麻子、葛优或者紫霞仙子的声音做输出，特别有画面感，很有意思。

好玩好用、场景明确打破AI陪伴天花板

Q：回归到AI陪伴这个品类，今年大家会更聚焦在硬件类型的产品上，外界讨论度也比较高，比如AI玩具，您怎么看待这个趋势？这对逗逗的定位和未来规划有影响吗？

刘斌新：我觉得长期一定是会跟硬件结合的。比如你回到家，有一个特别喜欢的手办能跟你聊天，那是非常好的。

但另一方面我觉得不应该局限在单一的场景，我们还是希望它是7×24小时，在各种场景都能够陪着你。

所以光有硬件是不够的，首先它应该是一个软件，一个账号，这个账号可以转移到各种场景中，比如电脑、手机、手办，甚至是机器人、车上。我们觉得现在还是要先把软件做好。

未来我们可以跟人形机器人合作，动作的部分可以由他们来做，但里面的账号是可以植入到各个不同地方的。

当然现在AI玩具很火，我们年初也跟别人合作过一款毛绒玩具。但聊天不是AI玩具的重点，90%的关注点还是在玩具本身。首先得玩具好看，用户才会喜欢。本质上AI玩具属于不同的类型。

Q：量子位智库的数据显示，上半年AI陪伴类产品的增长是有点滞缓的，留存率比较差，但下半年有一些产品又起来了，其中的变化是什么？

刘斌新：有两点，第一是一说到AI陪伴，大家首先想到的就是Character.AI这一类，这类产品更多偏乙女向，可以说是乙女游戏的替代或升级。其中的问题在于，这种角色扮演场景对用户的要求比较高，需要用户有很强的角色幻想能力，用户本身要会想象，能够参与其中。所以只能是有一小群人很喜欢这些产品，但很容易碰到天花板，因为用户群相对有限。

另外今年有很多新的产品开始出现，带来了新的玩法和更加适合的场景，面向的人群也更广泛，天花板就被打开了。

第二点，我觉得是技术在变化，大模型技术在进化，原来很多不可能的事情变得可能，原来很多不够好的体验变得更好。

其一是DeepSeek带火推理模型，使得AI在很多场景回答的准确性提高了。其二，多模态模型变得更加成熟，除了文生图、文生视频，多模态理解、包括TTS都变得更强了。

“第一天就定位全球化”

Q：TGS也是Hakko AI第一次在海外参展，接下来在国内市场和出海方面的布局是怎样的？

刘斌新：其实Hakko AI在海外上线有一段时间了，现在也积累了几十万用户。上线之后效果也很好，包括英语市场和日语市场，反响都不错，甚至留存时长比国内还要长。

我们认为现在AI产品一上来应该就是全球化的，因为现在大模型对多语言有很好的兼容，就是文化上可能有一点差别，但人性是相通的，像游戏本身就是全球化的。

我们选择先在国内试水，因为国内人口基数更大，成本相对更低。慢慢我们会把这些在国内验证OK的东西复制到海外，结合当地的文化去做变化和运营。

Q：定价方面会有区别吗？

刘斌新：结合不同的市场，定价会有点区别。国内现在主要是皮肤道具，加上订阅。海外订阅会多一些。

从长期来说，我们认为我们国内和海外的用户比例会是6：4，收入可能一半一半。

Q：会考虑加广告吗？

刘斌新：我觉得还是要看对用户有没有价值。比如你打游戏到7点，还没吃饭，这时候AI问你，要不要给你点碗面？你会觉得特别贴心。至于是从美团还是从饿了么上面点，用户不care。

文章来自于微信公众号 “量子位”，作者 “量子位”

AI新闻逗逗AI AI游戏游戏AI LynkSoul VLM v1 游戏理解模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales