AI资讯新闻榜单内容搜索-全模态

AI能帮忙厨房看火了！面壁智能开源全模态模型MiniCPM-o4.5，边看边听还能主动抢答

空气炸锅“叮”了一声。

来自主题: AI资讯

7206 点击 2026-02-05 14:23

刚刚，面壁小钢炮开源进阶版「Her」，9B模型居然有了「活人感」

面壁开源了行业首个全双工全模态大模型 MiniCPM-o 4.5，相比已有多模态模型，MiniCPM-o 4.5 首次实现了「边看边听边说」以及「自主交互」的全模态能力，模型不再只是把视觉、语音作为静态输入处理，而是能够在实时、多模态信息流中持续感知环境变化，并在输出的同时保持对外界的理解。

来自主题: AI资讯

8637 点击 2026-02-04 22:39

字节阿里DeepSeek决战春节：一场关乎14亿人的重磅AI大战

这个春节，中国 AI 迎来「决战时刻」。据《The Information》援引内部消息人士透露：字节或将祭出全模态三件套；阿里除了或将发布强大的全新旗舰模型 Qwen 3.5 外，也会让千问打通支付与电商，挑战豆包；DeepSeek V4 或将携最强代码能力突袭。这不仅是技术竞赛，更是对 14 亿用户生活入口与未来互联网秩序的终极争夺。

来自主题: AI资讯

7961 点击 2026-01-30 19:21

音频-视觉全模态的未来预测，FutureOmni给出了首份答卷

复旦大学、上海创智学院与新加坡国立大学联合推出首个全模态未来预测评测基准 FutureOmni，要求模型从音频 - 视觉线索中预测未来事件，实现跨模态因果和时间推理。

来自主题: AI技术研报

5265 点击 2026-01-26 10:19

2.4万亿参数量文心5.0正式版发布，霸榜LMArena的“最强文科生”到底强在哪？

在文心Moment大会上，文心大模型5.0正式版上线。据称，该模型参数量达2.4万亿，采用原生全模态统一建模技术，具备全模态理解与生成能力，支持文本、图像、音频、视频等多种信息的输入与输出。

来自主题: AI资讯

7711 点击 2026-01-24 11:03

「听觉」引导「视觉」，OmniAgent开启全模态主动感知新范式

针对端到端全模态大模型（OmniLLMs）在跨模态对齐和细粒度理解上的痛点，浙江大学、西湖大学、蚂蚁集团联合提出 OmniAgent。这是一种基于「音频引导」的主动感知 Agent，通过「思考 - 行动 - 观察 - 反思」闭环，实现了从被动响应到主动探询的范式转变。

来自主题: AI技术研报

6431 点击 2026-01-09 10:54

AI 真能看懂物理世界吗？FysicsWorld：填补全模态交互与物理感知评测的空白

近年来，多模态大语言模型正在经历一场快速的范式转变，新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频以及其他潜在感官模态信息的统一全模态大模型。此类模型的目标不仅是感知全模态内容，还要将视觉理解和生成整合到统一架构中，从而实现模态间的协同交互。

来自主题: AI技术研报

8851 点击 2025-12-29 09:05

火线解析MiniMax招股书！全球领先大模型成本只有OpenAI 1%，果然拳怕少壮

刚刚，上海大模型独角兽MiniMax，正式通过港交所聆讯，吹响了IPO冲刺号角。但直到招股书披露，更重要的资本吸引力原因才完全明确——不仅因为全模态能力全球领先，更关键的是，累计花费只用了5亿美元，不到OpenAI的1%。

来自主题: AI资讯

8569 点击 2025-12-21 23:20

哈工大深圳团队推出Uni-MoE-2.0-Omni：全模态理解、推理及生成新SOTA

全模态大模型（Omnimodal Large Models, OLMs）能够理解、生成、处理并关联真实世界多种数据类型，从而实现更丰富的理解以及与复杂世界的深度交互。人工智能向全模态大模型的演进，标志着其从「专才」走向「通才」，从「工具」走向「伙伴」的关键点。

来自主题: AI技术研报

8006 点击 2025-11-26 09:13

拆解Gemini 3：Scaling Law的极致执行与“全模态”的威力

毫无疑问，Google最新推出的Gemini 3再次搅动了硅谷的AI格局。在OpenAI与Anthropic激战正酣之时，谷歌凭借其深厚的基建底蕴与全模态（Native Multimodal）路线，如今已从“追赶者”变成了“领跑者”。

来自主题: AI资讯

9351 点击 2025-11-24 15:26