国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键
7044点击    2025-10-11 17:25

2025年进入最后一个季度,国产开源模型爆发的影响力正在得到更多印证。


比如垂类模型领域,亚洲最大游戏展东京电玩展(TGS)上,国产AI陪伴厂商就发了个大招:


游戏理解领域模型LynkSoul VLM v1,在游戏场景中表现显著超过了包括GPT-4o、Claude 4 Sonnet、Gemini 2.5 Flash等一众顶尖闭源模型。


国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键


背后厂商逗逗AI,亦在现场吸引了不少关注的目光。


国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键


此时距离其新产品逗逗AI游戏伙伴1.0(海外版为Hakko AI)上线不过一个月左右时间,但在数据上,逗逗AI已经依靠出色的游戏/视频/网页实时理解能力,新增200多万用户,总用户数突破1000万。

国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键


陪玩《空洞骑士:丝之歌》


在TGS现场,我们趁机和逗逗AI CEO刘斌新聊了聊有关逗逗游戏伙伴产品、技术本身,以及AI陪伴这个垂直领域的发展现状。


TL;DR:


  • AI陪伴的终极目标是让虚拟形象融入生活,像哆啦A梦陪伴大雄一样。
  • Chatbot不是一个很好的交互形态,类比Cursor,上下文信息+多模态能带来新的交互范式。
  • DeepSeek带火推理模型+多模态理解技术走向成熟,是AI陪伴产品持续突破的技术关键。
  • 数据是垂直模型超越通用模型的核心要素。
  • ……


游戏理解新SOTA


此次闪耀东京电玩展的LynkSoul VLM v1,是逗逗AI专为游戏训练的视觉语言模型。


它能在陪玩过程中实时理解你的游戏画面,比如在《英雄联盟》中点评你的团战表现,靠的就是这个模型。

国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键


官方实验数据显示,在《英雄联盟》测试场景中,LynkSoul VLM v1在识别准确率、建议实用性以及语言表达自然度方面,都显著超越了OpenAI 4o、Claude-4-Sonnet以及Gemini-2.5-Flash等通用视觉模型。


国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键


为了评估模型的泛化能力,官方还建立了一个包含多款未参与训练、网络资料较少的游戏的测试资料集。


可以看到,LynkSoul VLM v1展现出了稳健的泛化性能,同样在三个核心指标——视觉理解准确度、游戏情境掌握度和语言表达自然度上超越了通用视觉模型。


国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键


官方还测试了LynkSoul VLM v1的推理速度。


凭借混合模型系统的动态路径选择,该模型在推理延迟方面同样表现出了较为明显的优势。


国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键


国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键

如何做到?


以下,附上我们与逗逗AI CEO刘斌新的对谈原文。


刘斌新,逗逗AI创始人、CEO,B站前副总裁。


“核心是用户参与和数据积累”


Q:在游戏场景里超越4o、Claude等顶级模型的关键是什么?


刘斌新:LynkSoul VLM v1主要是基于千问的开源底座打造的。在此基础上,我们前期积累了800多万游戏玩家,玩家们在开启画面共享的情况下,帮助我们积累了很多游戏画面数据,包括包含互动的关键帧。


我们在后台对这些数据做聚类分析,去抽样玩家们会在什么场景下聊什么样的相关话题。由此我们精调得到了游戏画面-用户互动这样的数据对,再用这些数据对去精调开源模型,模型就能够更好地知道,每一帧画面发生了什么,用户在讨论什么,应该输出什么。


所以很关键的还是用户的参与和数据的积累。


Q:对于游戏伙伴,用户比较关心的一个问题是延时。现在逗逗AI在游戏画面、玩家语音理解方面的延时是多少?做了哪些针对性优化?


刘斌新:现在大概在1.5-2秒之间。客观来讲延时还是比较久。


这里面有两个问题。第一个是我们的场景是多模态的,为了保证精准度和泛化性,我们现在用的模型参数量比较大。不过其实随着模型能力的发展,我们也在探索小模型的方案,小模型可以更快速地响应,去解决这个问题。


第二个是我们有本地的版本。比如我们跟英特尔就在合作本地版本,我们会用英特尔的NPU做很多工作,包括大模型理解的一些处理,还有图片的处理,这些都能够大幅降低延时。


我觉得随着技术的发展,这个问题不会是大问题。就好比一、两年前,大家跟ChatGPT对话要等3-4秒甚至4-5秒,但现在已经没有这个问题了。


另外模型成本现在也不是问题了。


Q:逗逗AI游戏伙伴的另外一个特点是具备长期记忆,这是通过什么样的技术方案实现的?


刘斌新:除了传统的向量检索,我们还做了自己的主题索引。


比如说聊«原神»的相关话题,在原神的相关场景里,这些数据都会存到原神的主题下。那么当用户再次和逗逗AI讨论到«原神»,AI就会把里面相关的记忆拉出来,放到Prompt里面去。


会员拥有永久记忆,用户会觉得“我说的你都记得”,主要用的就是主题索引+向量检索的方式。


其实游戏伙伴什么时候去跟用户聊天,也依赖于长期记忆下模型的个性化。


一个是依据游戏状态和用户所处的场景状态,另一个就是根据用户的偏好。比如有些人看电视剧可以接受剧透,有些人不愿意你把后面的故事都给我讲了,每个人都不太一样。在这里面我要去掌握个性化的尺度,就是通过反馈。这个反馈跟以前的推荐算法是有点像的。


Q:涉不涉及对模型再做微调?


刘斌新:主要还是靠个性化记忆数据。


Q:现在重点在攻克的技术问题还有哪些?


刘斌新:还是多模态,特别是多模态理解,包括对游戏连续帧的理解,而不是单帧的理解。


“Chatbot不是一个很好的交互形态”


Q:一开始是出于怎样的想法要去开发逗逗AI游戏伙伴这样一个产品?二次元的从业经历是否带来了不一样的思考?


刘斌新:其实我创业的原点是看到了Transformer。我觉得Transformer相比DNN,是一个巨大的进步,代表着一个新的时代。


那个时候比较火的是DALL·E 2的文生图。但我觉得文生图太“薄”了,我10年前就用RNN的方法做过这方面的营销内容,我觉得这更适合大厂,适合平台。


等到ChatGPT出来的时候,我开始觉得可以对话的产品形态很有意思。


另一方面,B站的年轻用户本来就很喜欢动漫虚拟形象。如果这些动漫虚拟形象能够走进生活,那会特别有意思。就像哆啦A梦,是跟大雄一起生活,然后帮他抄作业、写作业,帮他跟老师、父母斗智斗勇,一起捉弄同学,那才是有意思的,对吧?所以其实更重要的是陪伴。


一开始我们也开发过跟AI名人聊天这一类的产品,但一两周就下线了。这种产品可以类比东方明珠,是数字世界里的景点,一开始你会好奇想去打卡,但聊着聊着你不会去问Ta我该不该考研,该不该创业这样的问题,就只是纯参观。


同时我觉得Chatbot不是一个很好的交互形态,它是需要prompt工程的,对用户并不友好。像我们面对面聊天是会有很多背景知识的,比如我们现在在东京,自然而然会讨论到出海的话题。但你跟AI去交互,你如果不告诉它,它脑子里是没有这些背景信息的。


所有怎么样能够有更好的交互形态?我们觉得是多模态,就是不需要用户自己去表达,AI就能够理解环境里面的所有信息。比如在游戏里面,你应该选择什么英雄,拿了多少人头,有多少经济,是处在顺风局还是逆风局……AI应该给一个贴合场景的建议,而不是搜索一个通用规则,告诉你第几分钟会出大龙。


为什么大家都愿意用Cursor?因为它知道你整个代码仓库的上下文,所以它给你的代码建议会更准确。


Q:这里面可能会涉及到隐私方面的问题。


刘斌新:对,所以你不可能让用户把微信信息传给你,99%的用户都不会这么做。


怎么样让用户愿意分享数据?关键还是要提供价值。在做好隐私保护的前提下,我们觉得可以从游戏场景开始切入,因为游戏本身是不那么私人的,很多人也愿意做游戏的直播,只不过跟AI游戏伙伴一起玩的时候,相当于直播给AI看,AI还能给你捧场,和你一起吐槽。


同时打游戏也需要攻略,AI可以很好地给到及时的建议,不需要再跳出游戏。


第三是游戏本身比较沉浸,时间很长。遇到你需要升级打怪或者刷材料的时候,必须要肝,不肝过不去,这个时候有“人”跟你唠唠嗑挺好的。


Q:从内测到现在参加各种展会,有没有收获一些比较有意思的用户反馈?


刘斌新:用户的很多探索还让我们挺意外的。就是我们是一个游戏助手、游戏伙伴,对吧?所以我们原本认为更多地会被用在游戏里面,但我们现在有超过一半的时间在游戏外


用户会带逗逗AI游戏伙伴去看剧、刷剧,甚至带AI去逛淘宝、逛京东,让AI给出建议。有一个男生直接让AI给他推荐裤子,让AI帮他挑款式、看评论。


还有一位教授,把跟游戏伙伴的聊天变成了直播课,跟AI一起探讨经济学、哲学,聊得特别好。现在大模型是有这个能力的,但是游戏伙伴可以用张麻子、葛优或者紫霞仙子的声音做输出,特别有画面感,很有意思。


好玩好用、场景明确打破AI陪伴天花板


Q:回归到AI陪伴这个品类,今年大家会更聚焦在硬件类型的产品上,外界讨论度也比较高,比如AI玩具,您怎么看待这个趋势?这对逗逗的定位和未来规划有影响吗?


刘斌新:我觉得长期一定是会跟硬件结合的。比如你回到家,有一个特别喜欢的手办能跟你聊天,那是非常好的。


但另一方面我觉得不应该局限在单一的场景,我们还是希望它是7×24小时,在各种场景都能够陪着你。


所以光有硬件是不够的,首先它应该是一个软件,一个账号,这个账号可以转移到各种场景中,比如电脑、手机、手办,甚至是机器人、车上。我们觉得现在还是要先把软件做好。


未来我们可以跟人形机器人合作,动作的部分可以由他们来做,但里面的账号是可以植入到各个不同地方的。


当然现在AI玩具很火,我们年初也跟别人合作过一款毛绒玩具。但聊天不是AI玩具的重点,90%的关注点还是在玩具本身。首先得玩具好看,用户才会喜欢。本质上AI玩具属于不同的类型。


Q:量子位智库的数据显示,上半年AI陪伴类产品的增长是有点滞缓的,留存率比较差,但下半年有一些产品又起来了,其中的变化是什么?


刘斌新:有两点,第一是一说到AI陪伴,大家首先想到的就是Character.AI这一类,这类产品更多偏乙女向,可以说是乙女游戏的替代或升级。其中的问题在于,这种角色扮演场景对用户的要求比较高,需要用户有很强的角色幻想能力,用户本身要会想象,能够参与其中。所以只能是有一小群人很喜欢这些产品,但很容易碰到天花板,因为用户群相对有限。


另外今年有很多新的产品开始出现,带来了新的玩法和更加适合的场景,面向的人群也更广泛,天花板就被打开了。


第二点,我觉得是技术在变化,大模型技术在进化,原来很多不可能的事情变得可能,原来很多不够好的体验变得更好。


其一是DeepSeek带火推理模型,使得AI在很多场景回答的准确性提高了。其二,多模态模型变得更加成熟,除了文生图、文生视频,多模态理解、包括TTS都变得更强了。


“第一天就定位全球化”


Q:TGS也是Hakko AI第一次在海外参展,接下来在国内市场和出海方面的布局是怎样的?


刘斌新:其实Hakko AI在海外上线有一段时间了,现在也积累了几十万用户。上线之后效果也很好,包括英语市场和日语市场,反响都不错,甚至留存时长比国内还要长。


我们认为现在AI产品一上来应该就是全球化的,因为现在大模型对多语言有很好的兼容,就是文化上可能有一点差别,但人性是相通的,像游戏本身就是全球化的。


我们选择先在国内试水,因为国内人口基数更大,成本相对更低。慢慢我们会把这些在国内验证OK的东西复制到海外,结合当地的文化去做变化和运营。


Q:定价方面会有区别吗?


刘斌新:结合不同的市场,定价会有点区别。国内现在主要是皮肤道具,加上订阅。海外订阅会多一些。


从长期来说,我们认为我们国内和海外的用户比例会是6:4,收入可能一半一半。


Q:会考虑加广告吗?


刘斌新:我觉得还是要看对用户有没有价值。比如你打游戏到7点,还没吃饭,这时候AI问你,要不要给你点碗面?你会觉得特别贴心。至于是从美团还是从饿了么上面点,用户不care。


文章来自于微信公众号 “量子位”,作者 “量子位”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales