AI资讯新闻榜单内容搜索-多模态

让GPT-4o准确率大降，这个文档理解新基准揭秘大模型短板

在文档理解领域，多模态大模型（MLLMs）正以惊人的速度进化。从基础文档图像识别到复杂文档理解，它们在扫描或数字文档基准测试（如 DocVQA、ChartQA）中表现出色，这似乎表明 MLLMs 已很好地解决了文档理解问题。然而，现有的文档理解基准存在两大核心缺陷：

来自主题: AI技术研报

10014 点击 2025-05-25 11:44

MedGemma是谷歌 “健康人工智能开发者基础”（Health AI Developer Foundations）计划的核心项目。基于 Gemma 3 架构， MedGemma提供多模态和纯文本两种模型变体，旨在降低医疗 AI 开发门槛。

来自主题: AI资讯

11805 点击 2025-05-24 22:46

字节最近真的猛猛开源啊……这一次，他们直接开源了GPT-4o级别的图像生成能力。不止于此，其最新融合的多模态模型BAGEL主打一个“大一统”，将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。

来自主题: AI技术研报

10983 点击 2025-05-24 17:34

来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了MMLongBench，旨在全面评估多模态模型的长文本理解能力。

来自主题: AI技术研报

9525 点击 2025-05-23 14:52

在谷歌I/O大会后，创始人谢尔盖·布林惊喜现身，与Hassabis深入探讨AI的推理能力、规模与算法、测试时计算及多模态智能体的应用前景。布林强调AI时代是计算科学家不应退休的黄金期，AI影响将远超互联网与手机。

来自主题: AI资讯

7120 点击 2025-05-23 11:50

OpenAI 的 GPT-4o 在图像理解、生成和编辑任务上展现了顶级性能。流行的架构猜想是：

来自主题: AI技术研报

11540 点击 2025-05-23 11:42

普林斯顿大学与字节 Seed、北大、清华等研究团队合作提出了 MMaDA（Multimodal Large Diffusion Language Models），作为首个系统性探索扩散架构的多模态基础模型，MMaDA 通过三项核心技术突破，成功实现了文本推理、多模态理解与图像生成的统一建模。

来自主题: AI技术研报

10652 点击 2025-05-22 17:30

5月23-24日AICon上海站，聚焦Agent、多模态、端侧智能、Data for AI 等 50+ 热点话题，涉及 20+ AI 应用案例，兼具实操价值与未来洞见。

来自主题: AI资讯

11466 点击 2025-05-21 14:36

谷歌Jules震撼发布！这款AI编程神器不仅能写代码，还能自动修Bug、生成PR，免费试用每日5次。多模态Gemini 2.5 Pro模型赋予Jules超强智慧，无论多复杂的代码库，它都能精准拿捏。

来自主题: AI资讯

9038 点击 2025-05-21 10:32

检索增强技术在代码及多模态场景中的发挥着重要作用，而向量模型是检索增强体系中的重要组成部分。

来自主题: AI资讯

11925 点击 2025-05-20 15:47