AI资讯新闻榜单内容搜索-视觉

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

多模态大模型虽然在视觉理解方面表现出色，但在需要深度数学推理的任务上往往力不从心，尤其是对于参数量较小的模型来说更是如此。

来自主题: AI技术研报

6450 点击 2025-03-19 09:43

跨模态因果对齐，让机器更懂视觉证据！

来自主题: AI技术研报

10639 点击 2025-03-17 15:02

最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务，同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而，由于输入不匹配和 VAE 潜在空间的使用，将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。

来自主题: AI技术研报

10574 点击 2025-03-17 14:36

当前，视觉语言模型（VLMs）的能力边界不断被突破，但大多数评测基准仍聚焦于复杂知识推理或专业场景。本文提出全新视角：如果一项能力对人类而言是 “无需思考” 的本能，但对 AI 却是巨大挑战，它是否才是 VLMs 亟待突破的核心瓶颈？

来自主题: AI技术研报

8011 点击 2025-03-15 15:05

它能像人眼一样，在文本、视觉输入和无提示范式等不同机制下进行检测和分割。

来自主题: AI技术研报

11131 点击 2025-03-13 14:46

武汉大学等发布了一篇大型视觉语言模型（LVLMs）安全性的综述论文，提出了一个系统性的安全分类框架，涵盖攻击、防御和评估，并对最新模型DeepSeek Janus-Pro进行了安全性测试，发现其在安全性上存在明显短板。

来自主题: AI技术研报

8706 点击 2025-03-11 16:32

Magma是一个新型多模态基础模型，能够理解和执行多模态任务，适用于数字和物理环境：通过标记集合（SoM）和标记轨迹（ToM）技术，将视觉语言数据转化为可操作任务，显著提升了空间智能和任务泛化能力。

来自主题: AI技术研报

8031 点击 2025-03-11 10:49

最新开源的视觉预训练方法，马毅团队、微软研究院、UC伯克利等联合出品！

来自主题: AI技术研报

6751 点击 2025-03-09 10:54

CVPR 2025，混合新架构MambaVision来了！Mamba+Transformer混合架构专门为CV应用设计。MambaVision 在Top-1精度和图像吞吐量方面实现了新的SOTA，显著超越了基于Transformer和Mamba的模型。

来自主题: AI技术研报

10403 点击 2025-03-08 13:10

由UCLA等机构共同组建的研究团队，全球首次在20亿参数非SFT模型上，成功实现了多模态推理的DeepSeek-R1「啊哈时刻」！就在刚刚，我们在未经监督微调的2B模型上，见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」！

来自主题: AI技术研报

9043 点击 2025-03-05 20:42