AI资讯新闻榜单内容搜索-MLLMs

给几何图片写标题就能让AI更聪明，UIUC发布高质量可泛化几何数据集

随着多模态大语言模型（MLLMs）在视觉问答、图像描述等任务中的广泛应用，其推理能力尤其是数学几何问题的解决能力，逐渐成为研究热点。然而，现有方法大多依赖模板生成图像 - 文本对，泛化能力有限，且视

来自主题: AI技术研报

7511 点击 2025-09-26 13:30

在科研、新闻报道、数据分析等领域，图表是信息传递的核心载体。要让多模态大语言模型（MLLMs）真正服务于科学研究，必须具备以下两个能力

来自主题: AI技术研报

8949 点击 2025-08-22 10:35

近年来，多模态大模型（MLLMs）发展迅猛，从看图说话到视频理解，似乎无所不能。

来自主题: AI资讯

8761 点击 2025-07-13 11:53

使用过程奖励模型（PRM）强化大语言模型的推理能力已在纯文本任务中取得显著成果，但将过程奖励模型扩展至多模态大语言模型（MLLMs）时，面临两大难题：

来自主题: AI技术研报

8678 点击 2025-07-12 11:58

在多模态大语言模型（MLLMs）应用日益多元化的今天，对模型深度理解和分析人类意图的需求愈发迫切。尽管强化学习（RL）在增强大语言模型（LLMs）的推理能力方面已展现出巨大潜力，但将其有效应用于复杂的多模态数据和格式仍面临诸多挑战。

来自主题: AI技术研报

9032 点击 2025-07-09 10:59

思维链（Chain of Thought, CoT）推理方法已被证明能够显著提升大语言模型（LLMs）在复杂任务中的表现。而在多模态大语言模型（MLLMs）中，CoT 同样展现出了巨大潜力。

来自主题: AI技术研报

10091 点击 2025-06-17 10:21

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

8400 点击 2025-06-07 14:20

逻辑推理是人类智能的核心能力，也是多模态大语言模型 (MLLMs) 的关键能力。随着DeepSeek-R1等具备强大推理能力的LLM的出现，研究人员开始探索如何将推理能力引入多模态大模型(MLLMs)

来自主题: AI技术研报

9466 点击 2025-06-07 10:35

在文档理解领域，多模态大模型（MLLMs）正以惊人的速度进化。从基础文档图像识别到复杂文档理解，它们在扫描或数字文档基准测试（如 DocVQA、ChartQA）中表现出色，这似乎表明 MLLMs 已很好地解决了文档理解问题。然而，现有的文档理解基准存在两大核心缺陷：

来自主题: AI技术研报

9368 点击 2025-05-25 11:44

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evaluator。

来自主题: AI技术研报

8937 点击 2025-05-12 14:51