从多模态大模型中「拆」出音频向量模型
从多模态大模型中「拆」出音频向量模型Google 最近发了 Gemini Embedding 2,他们第一个原生多模态向量模型。文本、图像、视频、音频、文档,全部映射到同一个 3072 维向量空间。这是 Omni Embedding(全模态向量模型)的大趋势:一个架构吃下所有模态,从 jina-embeddings-v4 到 Omni-Embed-Nemotron 再到 Omni-5,大家都在往这个方向收敛。
来自主题: AI技术研报
5178 点击 2026-03-16 15:06