AI资讯新闻榜单内容搜索-视觉

Attention真的可靠吗？上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

近年来，Vision-Language Models（视觉 — 语言模型）在多模态理解任务中取得了显著进展，并逐渐成为通用人工智能的重要技术路线。然而，这类模型在实际应用中往往面临推理开销大、效率受限的问题，研究者通常依赖 visual token pruning 等策略降低计算成本，其中 attention 机制被广泛视为衡量视觉信息重要性的关键依据。

来自主题: AI技术研报

9045 点击 2026-02-06 10:39

刚刚，面壁小钢炮开源进阶版「Her」，9B模型居然有了「活人感」

面壁开源了行业首个全双工全模态大模型 MiniCPM-o 4.5，相比已有多模态模型，MiniCPM-o 4.5 首次实现了「边看边听边说」以及「自主交互」的全模态能力，模型不再只是把视觉、语音作为静态输入处理，而是能够在实时、多模态信息流中持续感知环境变化，并在输出的同时保持对外界的理解。

来自主题: AI资讯

8565 点击 2026-02-04 22:39

VL-LN Bench：模拟「边走边问找具体目标」的真实导航场景

如果将一台在视觉语言导航（VLN）任务中表现优异的机器人直接搬进家庭场景，往往会遇到不少实际问题。

来自主题: AI技术研报

7389 点击 2026-02-03 08:43

VLM剪枝新SOTA：无需重训练，注意力去偏置超越6大主流方案

近年来，Vision-Language Models（视觉—语言模型）在多模态理解任务中取得了显著进展，并逐渐成为通用人工智能的重要技术路线。

来自主题: AI技术研报

5763 点击 2026-01-31 12:30

Gemini 3「开眼」像素级操控！谷歌回应DeepSeek-OCR2

没想到吧，Google DeepMind刚刚为Gemini 3 Flash推出了一个重量级新能力：Agentic Vision（智能体视觉）。（难道是被DeepSeek-OCR2给刺激到了？）

来自主题: AI资讯

9431 点击 2026-01-28 18:06

刚刚，DeepSeek又探索新架构了，开源OCR 2

嘿！刚刚，DeepSeek 又更新了！这次是更新了十月份推出的 DeepSeek-OCR 模型。刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构，实现了视觉编码从「固定扫描」向「语义推理」的范式转变！

来自主题: AI资讯

8890 点击 2026-01-27 17:15

DeepSeek又拿第一！首创「因果流」视觉推理，超越Gemini

DeepSeek开源DeepSeek-OCR2，引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序（从左上到右下）扫描图像的限制，转而模仿人类视觉的「因果流（Causal Flow）」逻辑。

来自主题: AI技术研报

5779 点击 2026-01-27 16:51

DeepSeek最新王炸模型：VLM架构重磅突破，AI像人一样读图

这一框架可用于集成额外文本、语音和视觉等多种模态。

来自主题: AI技术研报

9177 点击 2026-01-27 16:15

北大AI研究颠覆认知：我们看到的不是真实，而是被语言润色过的现实

近日，北京大学朱毅鑫教授课题组、北京大学毕彦超教授课题组和山西医科大学第一医院王效春团队通过结合 AI 模型和大脑损伤患者的数据，发现语言其实是一副无形的智能眼镜，时刻在悄悄修饰着我们看到的世界。我们可能以为视觉就是眼睛看到什么就是什么，但是这项成果说明了视觉从来都不是孤立的。事实上，当我们在看图片的时候，其实不只是在看，而是在进行被语言调制过的看。

来自主题: AI技术研报

7688 点击 2026-01-27 09:27

关于多模态大模型Token压缩技术进展，看这一篇就够了

近年来多模态大模型在视觉感知，长视频问答等方面涌现出了强劲的性能，但是这种跨模态融合也带来了巨大的计算成本。高分辨率图像和长视频会产生成千上万个视觉 token ，带来极高的显存占用和延迟，限制了模型的可扩展性和本地部署。

来自主题: AI技术研报

8957 点击 2026-01-26 14:22