AI资讯新闻榜单内容搜索-视觉

开源版MetaQuery来了！OpenUni用1.1B参数媲美BLIP3-o-8B，数据代码完全开源

随着 GPT-4o 展现出令人印象深刻的多模态能力，将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势（如MetaQuery 和 BLIP3-o ）。

来自主题: AI技术研报

8090 点击 2025-06-22 16:39

√N并行+84倍计算加速！英伟达港大全新图像注意力：空间结构都保留

GSPN是一种新型视觉注意力机制，通过线性扫描和稳定性-上下文条件，高效处理图像空间结构，显著降低计算复杂度。通过线性扫描方法建立像素间的密集连接，并利用稳定性-上下文条件确保稳定的长距离上下文传播，将计算复杂度显著降低至√N量级。

来自主题: AI技术研报

8053 点击 2025-06-18 16:41

沉迷贪吃蛇，7B小模型竟变身「数学天才」！几何推理碾压GPT-4o

NVIDIA等研究团队提出了一种革命性的AI训练范式——视觉游戏学习ViGaL。通过让7B参数的多模态模型玩贪吃蛇和3D旋转等街机游戏，AI不仅掌握了游戏技巧，还培养出强大的跨领域推理能力，在数学、几何等复杂任务上击败GPT-4o等顶级模型。

来自主题: AI技术研报

7865 点击 2025-06-17 16:53

Midjourney入局视频生成，图像模型V7不断更新，视觉卷王实锤了

图像生成界的“大魔王”Midjourney也来卷视频生成了？！

来自主题: AI资讯

10323 点击 2025-06-17 10:45

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

思维链（Chain of Thought, CoT）推理方法已被证明能够显著提升大语言模型（LLMs）在复杂任务中的表现。而在多模态大语言模型（MLLMs）中，CoT 同样展现出了巨大潜力。

来自主题: AI技术研报

10321 点击 2025-06-17 10:21

CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」，精准揪出犯错元凶

AI 决策的可靠性与安全性是其实际部署的核心挑战。当前智能体广泛依赖复杂的机器学习模型进行决策，但由于模型缺乏透明性，其决策过程往往难以被理解与验证，尤其在关键场景中，错误决策可能带来严重后果。因此，提升模型的可解释性成为迫切需求。

来自主题: AI技术研报

7804 点击 2025-06-16 09:27

CVPR2025视频生成统一评估架构，上交x斯坦福联合提出让MLLM像人类一样打分

视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式，从电影制作到广告设计，从虚拟现实到社交媒体，高质量且符合人类期望的视频生成模型正变得越来越重要。

来自主题: AI技术研报

7380 点击 2025-06-13 11:46

独家｜阶跃星辰Tech Fellow段楠离职，任京东探索研究院视觉与多模态实验室负责人

「市象」获悉，段楠已在其GitHub主页悄然更新履历：现任京东探索研究院视觉与多模态实验室负责人，带领研究团队研发视觉和多模态基础模型。此前，他曾任阶跃星辰Technical Fellow(2024-2025)和微软亚洲研究院自然语言计算团队资深首席研究员和研究经理(2012-2024)。

来自主题: AI资讯

8020 点击 2025-06-12 19:04

CVPR 2025 | 多模态统一学习新范式来了，数据、模型、代码全部开源

我们人类生活在一个充满视觉和音频信息的世界中，近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力，衍生出了多种不同类型的任务，它们分别要求模型具备不同层面的能力。

来自主题: AI技术研报

9305 点击 2025-06-12 11:43

MiniMax将发布文本推理模型，还计划推出独立的音频应用｜新皮层独家

第一财经「新皮层」独家获悉，MiniMax即将推出文本推理模型，并将开源。半个月前，MiniMax刚刚发布和开源了视觉推理模型Orsta（One RL to See Them All）。MiniMax今年3月做出产品线调整，将旗下现有产品「海螺AI」更名为「MiniMax」，与公司同名，聚焦文本理解和生成；

来自主题: AI资讯

10013 点击 2025-06-11 23:11