AI资讯新闻榜单内容搜索-全模态大模型

刚刚，面壁小钢炮开源进阶版「Her」，9B模型居然有了「活人感」

面壁开源了行业首个全双工全模态大模型 MiniCPM-o 4.5，相比已有多模态模型，MiniCPM-o 4.5 首次实现了「边看边听边说」以及「自主交互」的全模态能力，模型不再只是把视觉、语音作为静态输入处理，而是能够在实时、多模态信息流中持续感知环境变化，并在输出的同时保持对外界的理解。

来自主题: AI资讯

8625 点击 2026-02-04 22:39

「听觉」引导「视觉」，OmniAgent开启全模态主动感知新范式

针对端到端全模态大模型（OmniLLMs）在跨模态对齐和细粒度理解上的痛点，浙江大学、西湖大学、蚂蚁集团联合提出 OmniAgent。这是一种基于「音频引导」的主动感知 Agent，通过「思考 - 行动 - 观察 - 反思」闭环，实现了从被动响应到主动探询的范式转变。

来自主题: AI技术研报

6428 点击 2026-01-09 10:54

AI 真能看懂物理世界吗？FysicsWorld：填补全模态交互与物理感知评测的空白

近年来，多模态大语言模型正在经历一场快速的范式转变，新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频以及其他潜在感官模态信息的统一全模态大模型。此类模型的目标不仅是感知全模态内容，还要将视觉理解和生成整合到统一架构中，从而实现模态间的协同交互。

来自主题: AI技术研报

8850 点击 2025-12-29 09:05

哈工大深圳团队推出Uni-MoE-2.0-Omni：全模态理解、推理及生成新SOTA

全模态大模型（Omnimodal Large Models, OLMs）能够理解、生成、处理并关联真实世界多种数据类型，从而实现更丰富的理解以及与复杂世界的深度交互。人工智能向全模态大模型的演进，标志着其从「专才」走向「通才」，从「工具」走向「伙伴」的关键点。

来自主题: AI技术研报

8006 点击 2025-11-26 09:13

英伟达新架构引爆全模态大模型革命，OmniVinci 9B模型开源下载即破万

OmniVinci是英伟达推出的全模态大模型，能精准解析视频和音频，尤其擅长视觉和听觉信号的时序对齐。它以90亿参数规模，性能超越同级别甚至更高级别模型，训练数据效率是对手的6倍，大幅降低成本。在视频内容理解、语音转录、机器人导航等场景中，OmniVinci能提供高效支持，展现出卓越的多模态应用能力。

来自主题: AI资讯

8211 点击 2025-11-08 11:23