AI资讯新闻榜单内容搜索-多模态模型

视觉latent reasoning为什么不稳？这篇论文从特征空间找到了关键缺口

导读：视觉 latent reasoning 希望让多模态模型在内部生成连续 latent token，用这些中间表示补充多模态理解和推理任务中缺失的视觉证据。但问题在于，模型生成出来的 latent token 可能并不落在它原本熟悉的视觉输入空间里；如果模型无法稳定读取这些 token，它们就很难成为有效的中间视觉证据。

来自主题: AI技术研报

5385 点击 2026-06-16 13:56

重磅！谷歌开源Gemma 4 12B：统一的、无编码器的多模态模型，16G内存笔记本就可以跑

刚刚，谷歌DeepMind发布了Gemma 4 12B。一句话概括这个模型的定位：把原本需要高端服务器才能跑的多模态智能，装进你的笔记本电脑里。它填补的是Gemma家族里一个关键空缺：比边缘端的E4B更强，比26B混合专家模型（MoE）更轻。而且在整个Gemma 4系列里，它是第一个支持原生音频输入的中等规模模型。

来自主题: AI资讯

9132 点击 2026-06-04 09:46

多模态模型终于不用「抽帧看世界」？LLaVA-OneVision-2.0全开源全帧率技术解读

由格灵深瞳灵感实验室主导研发的 LLaVA-OneVision-2.0，是一款面向下一代感知智能的视觉语言大模型。团队充分利用视频 Codec 流和自研 OneVision-Encoder，实现跨帧、跨事件的增量观测和连续证据流建模。本文将详细介绍模型架构、训练方法与能力验证，展示该技术在视频理解、空间推理和目标追踪等任务中的应用潜力。

来自主题: AI技术研报

6109 点击 2026-06-03 15:03

阿里通义千问发布多模态智能体模型Qwen3.7-Plus，让AI从“读懂世界”，走向“动手完成任务”。

今天，阿里通义千问发布多模态智能体模型Qwen3.7-Plus。相比传统“看图说话”式多模态模型，Qwen3.7-Plus在识别图像的基础上，进一步打通界面感知、工具调用、代码生成和任务交付，让AI从“读懂世界”，走向“动手完成任务”。

来自主题: AI资讯

9345 点击 2026-06-02 21:40

MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你

MiniMax M3 今日正式发布。MiniMax M3 在编程和智能体等专业任务上达到了前沿的能力。它使用了我们提出的全新注意力架构 MSA （MiniMax Sparse Attention），最高支持 1M 超长上下文。如外界所期待的那样，它也是一个原生多模态模型，支持图片和视频的输入，并能操作电脑桌面。

来自主题: AI资讯

9569 点击 2026-06-01 09:49

独家｜字节迎战阿里快乐马：开源多模统一模型Mamoda2.5，推理速度快18倍

独家获悉，字节跳动日前低调公布全球首个25B级、基于混合专家 (MoE) -扩散自注意力机制(DiT) 的开源增强统一多模态模型Mamoda2.5。Mamoda2.5依托Qwen3-VL-8B、128 个专家，Top-8 路由的MoE+DiT架构搭建，最终模型参数高达250亿，而每次仅激活约30亿参数（约12%）。

来自主题: AI资讯

9962 点击 2026-05-06 10:44

刚刚，DeepSeek多模态技术范式公布，以视觉原语思考

刚刚，DeepSeek 在 Github 上正式发布了多模态模型，公布了背后的技术报告。实打实的新鲜出炉！而且是开创性的推理范式。下面我们就基于 DeepSeek 这篇技术报告，具体看看 DeepSeek、北京大学、清华大学又创造了怎样的奇迹。

来自主题: AI技术研报

9425 点击 2026-04-30 20:24

龙虾冲浪终于不迷路了！网页智能体新框架Avenir-Web开源即SOTA

伦敦大学学院（UCL）、普林斯顿大学和爱丁堡大学的研究团队联合推出了Avenir-Web，让现有多模态模型像人类一样使用网页。现有的Web Agent在面对复杂的网页结构（如 iframe、Shadow DOM）时，往往会陷入“定位不准”“缺乏常识”或“走着走着就忘了”的窘境。

来自主题: AI技术研报

8412 点击 2026-04-30 08:32

开源版的 GPT Image 2，信息图、连续图文、本地部署全拿下｜商汤SenseNova U1实测

SenseNova U1 是商汤最新发布的一个开源的多模态模型，它的 Lite 系列 8B 和 A3B 参数版本，目前已经在 Hugging Face 和 GitHub 上开源。APPSO 也提前拿到了测试资格，我们发现商汤这款新一代原生理解生成统一模型，就开源模型来说，已经做到了最好水平。

来自主题: AI产品测评

9669 点击 2026-04-29 19:51

ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache，刷新多模态生成模型推理加速新基准

FLUX 、Qwen-Image 等多模态生成模型的推理速度一直是工业级多模态模型落地的痛点。传统的特征缓存（Feature Caching）方案在追求高倍率加速时，常因瞬时速度的剧烈波动导致轨迹漂移。

来自主题: AI技术研报

8246 点击 2026-04-01 16:13