英伟达新架构引爆全模态大模型革命,OmniVinci 9B模型开源下载即破万

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
英伟达新架构引爆全模态大模型革命,OmniVinci 9B模型开源下载即破万
7330点击    2025-11-08 11:23

今年以来,开源大模型战场硝烟弥漫。


各路人马在此全力投入,试图在AI的下一个时代抢占生态位。而一个无法被忽略的趋势是:中国大模型,正在强势统治开源基础模型的「名人堂」。


从DeepSeek在代码与数学推理上的惊人表现,到Qwen(通义千问)家族在多模态和通用能力上的全面开花,它们凭借卓越的性能和快速的迭代,早已成为全球AI从业者无法绕过的参照物。


就在所有人都以为,这场基础模型开源浪潮将主要由顶尖的互联网巨头和明星创业公司推动时,一个「本该」在旁边「卖水」的巨头,也亲自下场「添柴」了。


是的,作为AI浪潮最大的受益者——英伟达(NVIDIA)——并没有懈怠自研大模型。


如今,英伟达的大模型矩阵迎来了一块重要拼图。


无需更多铺垫,老黄的最新王牌正式登场:最强9B视频音频全模态大模型 OmniVinci,强势开源!


英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万


论文链接:https://arxiv.org/abs/2510.15870


代码链接:https://github.com/NVlabs/OmniVinci


在多个主流全模态,音频理解,和视频理解榜单上,OmniVinci展示出了碾压对手的性能:


英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万


如果说英伟达之前的开源模型还只是在特定领域细分布局,那么OmniVinci的发布,则是一次真正意义上的「全线压上」。


英伟达对OmniVinci的定义是「全模态(Omni-Modal)」——一个能够同时理解视频、音频、图像和文本的统一模型。


它的大小仅为 90亿(9B) 参数,却在多项关键的多模态基准测试中,展现了「掀桌子」级别的性能。


英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万


根据英伟达发布的论文,OmniVinci的核心优势极其凌厉:


  • 性能越级对标: 在多个权威的全模态理解基准上(如DailyOmni、MMAR等),OmniVinci的表现全面超越了包括Qwen2.5-Omni在内的同级别(甚至更高级别)的竞争对手。


  • 惊人的数据效率: 这是最可怕的一点。OmniVinci达到当前SOTA(顶尖水平)性能,仅使用了0.2T(2000亿)tokens的训练数据。作为对比,其主要竞争对手的数据集规模普遍在1.2T以上。这意味着OmniVinci的训练效率是对手的 6倍


  • 核心技术革新: 它通过名为全对齐网络(OmniAlignNet )的创新架构,以及时序嵌入分组(Temporal Embedding Grouping)和约束旋转时间编码(Constratined Rotary Time Embed)等技术,实现了视觉和听觉信号在时序上的高精度对齐。简单来说,它不仅「看懂」了视频,「听懂」了声音,更能精准理解「什么声音在什么画面发生」。


英伟达的入局,传递了一个清晰的信号:硬件的王者,同样要掌握模型的定义权。


视频+音频理解: 1+1>2


音频的加入究竟有没有让多模态模型更强?实验给出了明确的回答:有,而且提升非常显著。


研究团队指出,声音为视觉任务引入了全新的信息维度,使模型在视频理解方面受益匪浅。


具体来说,从单纯依赖视觉,到结合音频进行隐式多模态学习,再到引入全模态数据引擎实现显式融合,模型的表现呈阶梯式跃升。


尤其是在采用显式学习策略后,多项指标上都出现了突破性进步,如下表所示,性能几乎是「一路狂飙」。


英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万


不单只SFT,在后训练阶段加入音频模态也能进一步增强GRPO的效果:


英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万


全模态Agent,落地场景拉满


视频与音频兼具的全模态模型突破了传统 VLM 的模态限制,能够更充分地理解视频内容,因此具备更广阔的应用场景。


比如总结老黄的采访:


英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万


还可以能转录成文字:


英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万


又或者语音指挥机器人导航:


英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万


是开源届的友军,而不是对手


在过去的一年里,


DeepSeek凭借其在代码和数学推理上的超强实力,一次次刷新开源榜单的上限,成为「最强理科生」的代名词。


Qwen则构建了庞大的模型矩阵,从最小的0.6B到巨无霸1T大模型,是目前生态最完善、综合能力最均衡的「全能选手」之一。


而OmniVinci的开源,更像是一条的「鲶鱼」。它用极致的效率和强悍的性能树立了SOTA的研究标杆,搅动了开源大模型战场,督促友军们拿出更好的模型帮助人类走向AGI。


对于「卖铲子」的英伟达来说,开源模型越多人用 -> 更多人买GPU,无疑是开源模型的最大收益者,也正因如此,英伟达是开源模型团队的坚定友军,而不是对手。


结语


社区狂欢,浪潮加速,共赴AGI


英伟达OmniVinci一经发布,如同一块巨石砸入本已波涛汹涌的开源之海,已经在huggingface上斩获一万多的下载量


海外的科技博主们抢先发布视频和文章分享相关技术


英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万


英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万


它既是英伟达「软硬一体」生态的自然延伸,也是对整个AI开源生态的一次强力「助推」。


开源的格局,因此更加清晰了。


一方,是以DeepSeek、Qwen为代表的中国开源力量,他们以极快的迭代速度和开放性,构筑了繁荣的开发者基础。


另一方,是手握算力霸权的英伟达,亲自下场,用「技术标杆」和「生态孵化」来作为开源友军加速整个进程。


浪潮已在加速,无人能置身事外。对于每一位AI从业者来说,一个更强、更快、更「卷」的AI时代,才刚刚开始。


参考资料:


https://arxiv.org/abs/2510.15870



文章来自于微信公众号 “新智元”,作者 “新智元”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md