AI资讯新闻榜单内容搜索-多模态

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 多模态

500行极简开源框架，硬刚GPT/Gemini视觉极限！

500行极简开源框架，硬刚GPT/Gemini视觉极限！

500行极简开源框架，硬刚GPT/Gemini视觉极限！

多模态模型代码写得像老司机，却在数手指、量柱子时频频翻车？UniPat AI用五百行代码打造的SWE-Vision，让模型「掏出Python尺子」自我验证，一举拿下五大视觉相关基准SOTA。

来自主题: AI资讯

8077 点击 2026-03-16 15:08

从多模态大模型中「拆」出音频向量模型

从多模态大模型中「拆」出音频向量模型

从多模态大模型中「拆」出音频向量模型

Google 最近发了 Gemini Embedding 2，他们第一个原生多模态向量模型。文本、图像、视频、音频、文档，全部映射到同一个 3072 维向量空间。这是 Omni Embedding（全模态向量模型）的大趋势：一个架构吃下所有模态，从 jina-embeddings-v4 到 Omni-Embed-Nemotron 再到 Omni-5，大家都在往这个方向收敛。

来自主题: AI技术研报

5747 点击 2026-03-16 15:06

ICLR 2026｜多模态大模型真的理解情绪吗？MME-Emotion给出了系统答案

ICLR 2026｜多模态大模型真的理解情绪吗？MME-Emotion给出了系统答案

ICLR 2026｜多模态大模型真的理解情绪吗？MME-Emotion给出了系统答案

近年来，多模态大模型（Multimodal Large Language Models, MLLMs）正在迅速改变人工智能的能力边界。从图像理解到视频分析，从语音对话到复杂推理，大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答：这些模型真的能够理解人类情绪吗？

来自主题: AI技术研报

6819 点击 2026-03-16 14:27

UniPat AI开源SWE-Vision：五百行代码打造SOTA视觉智能体！

UniPat AI开源SWE-Vision：五百行代码打造SOTA视觉智能体！

UniPat AI开源SWE-Vision：五百行代码打造SOTA视觉智能体！

多模态大模型在代码能力上进步惊人，但在基础视觉任务上却频繁失误。UniPat AI 构建了一个极简的视觉智能体框架 ——SWE-Vision，让模型可以编写并执行 Python 代码来处理和验证自己的视觉判断。在五个主流视觉基准测试中，SWE-Vision 均达到了当前最优水平。

来自主题: AI技术研报

9531 点击 2026-03-16 14:25

Nature子刊封面：牛津提出首个百万级多模态心脏基础模型CSFM

Nature子刊封面：牛津提出首个百万级多模态心脏基础模型CSFM

Nature子刊封面：牛津提出首个百万级多模态心脏基础模型CSFM

牛津大学团队推出全球首个心脏传感基础模型CSFM，能统一分析智能手环、心电图等多源数据，无论信号来自何处、是否完整，都能精准诊断房颤、预测死亡风险、重构血压波形，甚至用单一脉搏波生成完整心电图。打破了设备壁垒，让偏远地区也能享用顶级心脏监护，推动全球医疗平权。

来自主题: AI技术研报

8978 点击 2026-03-13 10:53

独家｜梁文锋将携DeepSeek V4撞上姚顺雨

独家｜梁文锋将携DeepSeek V4撞上姚顺雨

独家｜梁文锋将携DeepSeek V4撞上姚顺雨

我们独家获悉，外界千呼万唤的DeepSeek-V4将于4月正式上线。作为梁文锋打磨已久的多模态大模型，DeepSeek-V4除了在Coding能力上跃升之外，还将在LTM（long term memory长期记忆）上取得突破。

来自主题: AI资讯

10775 点击 2026-03-12 17:20

复旦等推出「第一人称视听基准」，补齐多模态模型「听觉拼图」

复旦等推出「第一人称视听基准」，补齐多模态模型「听觉拼图」

复旦等推出「第一人称视听基准」，补齐多模态模型「听觉拼图」

多模态大模型掉进真实世界，会“失聪”。

来自主题: AI技术研报

6105 点击 2026-03-12 14:10

最强多模态模型也拿不到30分？DeepImageSearch定义相册搜索新范式，开启个人视觉记忆的深度搜索时代

最强多模态模型也拿不到30分？DeepImageSearch定义相册搜索新范式，开启个人视觉记忆的深度搜索时代

最强多模态模型也拿不到30分？DeepImageSearch定义相册搜索新范式，开启个人视觉记忆的深度搜索时代

“时光流转，谁还用日记本。往事有底片为证。”—— 许嵩《摄影艺术》

来自主题: AI技术研报

6932 点击 2026-03-12 10:17

让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

刚刚，谷歌发布了首个原生多模态（Multimodal）嵌入模型——Gemini Embedding 2。这次模型最大的变化在于：把文本、图像、视频、音频和文档，全部映射进同一个统一的嵌入空间。

来自主题: AI资讯

6945 点击 2026-03-11 16:59

CVPR 2026｜清华联合美团推出3DThinker，首个用3D意象思考的工作

CVPR 2026｜清华联合美团推出3DThinker，首个用3D意象思考的工作

CVPR 2026｜清华联合美团推出3DThinker，首个用3D意象思考的工作

大家是否有这样的感觉？给定几张场景中拍摄的图片，往往能够在脑海中想象出这个场景的三维布局，然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示，限制了图像中隐含几何结构的表达能力。

来自主题: AI技术研报

8703 点击 2026-03-11 09:25

上一页当前第5页,共100页下一页