全网AI看不到的爱心，被这款开源全模态模型攻克了。。

10900点击 2025-11-04 11:57

你好，我是袋鼠帝。

昨天一大早，就发现美团开源了他们首款全模态实时交互大模型：LongCat-Flash-Omni。

立马上手体验了一下，最让我惊艳的是这个：

全网AI看不到的爱心，被这款开源全模态模型攻克了。。

不儿？这个让一众国内外AI全部翻车的 AI检测器失效了

在视频对话前，我没有给它任何暗示或者明示的上下文，而且测了很多次。

全网AI看不到的爱心，被这款开源全模态模型攻克了。。

不清楚的朋友可以看一下卡子哥（@数字生命卡兹克）前两天这篇10万+文章

我本来以为是实时的视频流是拯救了AI，结果不是，因为ChatGPT怎么都看不懂。。

因为ChatGPT App不支持录屏的时候录语音，所以只能再拿一个手机来拍了。。

全网AI看不到的爱心，被这款开源全模态模型攻克了。。

大家也可以试试别的有视频流理解能力的大模型

以后，应该也可以用来导盲，它还是认路的。

全网AI看不到的爱心，被这款开源全模态模型攻克了。。

不得不说，美团今年下半年实在是太活跃了，陆续开源了多款大模型。

比如国庆前开源的LongCat-Flash-Thinking，我也写过一篇文章，确实有点东西。

今天发布的这个模型，有两个关键词让我非常兴奋：开源、全模态实时交互

首先，老规矩，开源地址汇总，方便大家直达。

Hugging Face：

https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

Github：

https://github.com/meituan-longcat/LongCat-Flash-Omni

然后，我们来聊聊全模态实时交互。

看了上面的视频，相信大家也明白它的形式了

LongCat-Flash-Omni是一个all-in-one的一体化模型。不仅能处理我们常见的文本，图像，还能同时处理音频和视频。

同时，它能处理这些模态的任意组合输入。比如你可以一边给它看视频，一边用语音跟它说话。可以直接生成语音输出（这在之前是需要一个专门的TTS模型来搞定的）。

这意味着，它从输入到输出，整个链条是原生的全模态。它不再仅仅是一个你需要打字的聊天机器人，这个大模型有大脑，而且原生就长出了耳朵、嘴巴、眼睛，终于算是有一个完整的头啦。而且，它还是实时的。

LongCat-Flash-Omni是一个总参数量560B（平均激活参数27B）的混合专家模型（MoE架构），支持128K tokens上下文窗口和超8分钟音视频交互。

虽然参数量不小，但凭借完全端到端的设计，也实现了低延迟的实时交互。

PS：核心在于，它可以直接处理来自视觉和音频编码器的输入信号，并且能同时生成文本token和语音token。最后再由一个轻量级的音频解码器，把语音token快速转换成自然的人声。整个流程高度整合，以此实现了低延迟的实时交互。

全网AI看不到的爱心，被这款开源全模态模型攻克了。。

再来看看它的考试成绩。

在OmniBench和WorldSense这两个最能体现全模态综合能力的榜单上，它在所有开源模型里，都是SOTA（最先进水平）。

全网AI看不到的爱心，被这款开源全模态模型攻克了。。

在Audio音频，Video视频，Image图像，这些单点能力上，也超越了市面上其他的开源模型。

看起来美团的这个模型，不是那种为了全模态而牺牲了单模态能力的偏科生。是在保证了文本，语音，图像，视频每一项都是顶级水平的前提下，再把它们很好的集成到了一起。

我第一时间研究了一下技术报告（论文）

https://arxiv.org/abs/2510.15227

并且下载了LongCat的官方App，做了一些简单测试。

对了，美团刚刚推出了他们第一款AI App：LongCat

在IOS上，可以直接在App Store搜索下载

全网AI看不到的爱心，被这款开源全模态模型攻克了。。

对于Android，可以扫码下载：

全网AI看不到的爱心，被这款开源全模态模型攻克了。。

同时也可以在他们官网使用LongCat-Flash-Omni：

https://longcat.ai/

技术报告里提到了一个词，叫「渐进式早期多模融合训练」。

全网AI看不到的爱心，被这款开源全模态模型攻克了。。

要训练一个全能的AI，最大的挑战，就是不同模态的数据分布存在显著异质性。

比如，你教它看图，它可能就忘了怎么听声；你教它看视频，它又忘了怎么合成语音。

美团的搞法，就非常像我们人类的学习过程，循序渐进。

你也可以把它想象成盖房子：

第一阶段，先打一个极其扎实的地基。这就是Stage-0，只用海量的文本数据，把模型最基础的读写能力和逻辑能力训练到极致。

第二阶段（Stage-1），开始盖房子的主体框架，在保留文本能力的同时，加入语音数据，让它学会听说。

第三阶段（Stage-2），开始装修和上窗户，加入海量的图像数据，让它学会看图。

第四阶段（Stage-3），开始通电和接水管。加入最复杂的视频数据，让它看片，理解动态的世界。

最后，再进行精装修，比如Stage-4的长上下文扩展（从8K扩展至128Ktokens），和Stage-5的音频编码器校准。

这种从简到繁的渐进式训练，保证了AI在学习新技能时，不会丢掉老本行。让它在每一个模态上，都打下了最扎实的基础。

接下来测试了一下，我比较看重的图片识别能力

丢了一张模糊不清的《孤独美食家》韩国釜山菜单给它

全网AI看不到的爱心，被这款开源全模态模型攻克了。。

识别的还不错，很全面。

全网AI看不到的爱心，被这款开源全模态模型攻克了。。

然后尝试识别并解答高考数学题

全网AI看不到的爱心，被这款开源全模态模型攻克了。。

题目识别完全正确，但我没想到答案居然也完全正确！

确实如论文所说的，多模态能力上去了，数学能力也没落下呀。

丢了三月份个人AI公众号排行榜过去

看起来它对复杂表格数据提取效果也很不错，就是不知道这个新榜指数分析的对吗？

全网AI看不到的爱心，被这款开源全模态模型攻克了。。

不过在图片识别层面，还是没有逃过这个AI检测器

全网AI看不到的爱心，被这款开源全模态模型攻克了。。

最后我们再来看看它的视频理解能力

哈哈，让它认识一下我家狗子哈尼

下面视频中各种要素都识别正确了，而且没想到狗子的品种居然也说对了

全网AI看不到的爱心，被这款开源全模态模型攻克了。。

「最后」

体验完LongCat-Flash-Omni，我感觉我们和AI的主流交互方式，正在不可逆转的，从打字，转向语音。

甚至在不远的将来，主流方式会变成视频通话。

我们就像和真人一样，和AI面对面地交流，它能看到我们的世界，理解我们的处境，听懂我们的情绪，然后帮我们搞定一切。

一周前去了我堂姐家，本来想用AI帮她提效的，但是她把她的工作细节一说出来，我就愣住了。

我堂姐是在幼儿园做老师，她经常需要针对性的给小朋友制定学习计划：根据小朋友现阶段的学习情况，还有各方面的实时反馈（比如心情、学习积极性等等）来调整小朋友下一阶段的学习计划。

这完全就是一个实时变化的定制化场景。现有的AI基本很难提供什么实质性的帮助。

我当时给建议就是，得搞一个那种长着"眼睛"，"耳朵"的AI工具，然后挂身上实时感知小朋友的各种情况，才可能凑效。

比如把全模态大模型嵌入AR眼镜。

你戴着它走在街上，它实时看到你所看到的画面，实时听到你所听到的声音，能够通过眼镜架上的扬声器悄悄跟你对话，要是再接上脑机接口，你还能通过意念跟它沟通，那不是妥妥在身上挂了个萧炎的药老？

AI大模型的上半场更多的是在比拼思考、编程、Agent这些单点能力。

下半场，拼的肯定是能听，能说，能实时交互+强Agent能力的综合体验。

毕竟当AI更像人之后，才能更方便的为大家所用。

美团这次，不仅搬出了一个全能选手，而且他们模型一直都是开源的。

这格局，确实够大。

文章来自于“袋鼠帝AI客栈”，作者 “袋鼠帝”。

关键词: AI新闻 , LongCat-Flash-Omni , 美团AI , LongCat

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI接微信公众号

【开源免费】aiwechat-vercel是一个可以帮助你将AI接入微信公众号，帮你进行实时回答的项目。
项目地址：https://github.com/pwh-pwh/aiwechat-vercel

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales