AI资讯新闻榜单内容搜索-视觉

Jina-VLM：可在笔记本上跑的多语言视觉小模型

今天我们正式发布 Jina-VLM，这是一款 2.4B 参数量的视觉语言模型（VLM），在同等规模下达到了多语言视觉问答（Multilingual VQA）任务上的 SOTA 基准。Jina-VLM 对硬件需求较低，可在普通消费级显卡或 Macbook 上流畅运行。

来自主题: AI资讯

8572 点击 2025-12-09 14:48

全图与切片并非等价？LLaVA-UHD-v3揭示差异推出高效全图建模方案

随着多模态大模型（MLLMs）在各类视觉语言任务中展现出强大的理解与交互能力，如何高效地处理原生高分辨率图像以捕捉精细的视觉信息，已成为提升模型性能的关键方向。

来自主题: AI技术研报

10134 点击 2025-12-09 14:38

准确率腰斩！大模型视觉能力一出日常生活就「失灵」

我们习惯了AI在屏幕上侃侃而谈、生成美图，好像它无所不知。但假如把它“扔”进一个真实的手术室，让它用主刀医生的第一视角来判断下一步该用哪把钳子，这位“学霸”很可能当场懵圈。

来自主题: AI技术研报

9498 点击 2025-12-09 10:37

视觉推理模型Top1易主了，智谱GLM-4.6V开源

这一次，AI真的是快要砸掉我的饭碗了。智谱最新升级的新一代视觉推理模型——GLM-4.6V。在深度体验一波之后，我们发现写图文并茂的公众号推文，还只是GLM-4.6V能力的一隅。

来自主题: AI资讯

9020 点击 2025-12-09 00:50

AAAI 2026 | 北航、东京大学填补AI「语义鸿沟」，过程感知视频理解如何找到「状态」锚点？

在具身智能与视频理解飞速发展的今天，如何让 AI 真正 “看懂” 复杂的操作步骤？北京航空航天大学陆峰教授团队联合东京大学，提出视频理解新框架。该工作引入了 “状态（State）” 作为视觉锚点，解决了抽象文本指令与具象视频之间的对齐难题，已被人工智能顶级会议 AAAI 2026 接收。

来自主题: AI资讯

7923 点击 2025-12-06 11:13

Ilya刚预言完，世界首个原生多模态架构NEO就来了：视觉和语言彻底被焊死

全球首个可大规模落地的开源原生多模态架构（Native VLM），名曰NEO。要知道，此前主流的多模态大模型，例如我们熟悉的GPT-4V、Claude 3.5等，它们的底层逻辑本质上其实玩的就是拼接。

来自主题: AI技术研报

8927 点击 2025-12-05 14:46

大模型被确诊「视觉文盲」！多校联合提出MILO，为它植入空间想象力

大模型总是无法理解空间，就像我们难以想象四维世界。

来自主题: AI技术研报

8391 点击 2025-12-05 10:07

超越π0.5，复旦团队首创「世界模型+具身训练+强化学习」闭环框架

Vision–Language–Action（VLA）策略正逐渐成为机器人迈向通用操作智能的重要技术路径：这类策略能够在统一模型内同时处理视觉感知、语言指令并生成连续控制信号。

来自主题: AI技术研报

9482 点击 2025-12-05 09:27

无需标注图像，VLM也能「自我进化」！RL自我进化框架VisPlay突破视觉推理难题

在 Vision-Language Model 领域，提升其复杂推理能力通常依赖于耗费巨大的人工标注数据或启发式奖励。这不仅成本高昂，且难以规模化。

来自主题: AI技术研报

9454 点击 2025-12-02 15:22

架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

近一年以来，统一理解与生成模型发展十分迅速，该任务的主要挑战在于视觉理解和生成任务本身在网络层间会产生冲突。早期的完全统一模型（如 Emu3）与单任务的方法差距巨大，Janus-Pro、BAGEL 通过一步一步解耦模型架构，极大地减小了与单任务模型的性能差距，后续方法甚至通过直接拼接现有理解和生成模型以达到极致的性能。

来自主题: AI技术研报

8844 点击 2025-12-02 15:17