AI资讯新闻榜单内容搜索-多模态大语言模型

首个地球科学智能体Earth-Agent来了，解锁地球观测数据分析新范式

当强大的多模态大语言模型应用于地球科学研究时，它面临着无法忽视的「阿克琉斯之踵」

来自主题: AI技术研报

9278 点击 2025-10-28 14:45

不再靠「猜坐标」！颜水成团队等联合发布PaDT多模态大模型：实现真正的多模态表征输出

近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而，当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时，现有模型却常常「力不从心」。

来自主题: AI技术研报

10703 点击 2025-10-16 12:31

给几何图片写标题就能让AI更聪明，UIUC发布高质量可泛化几何数据集

随着多模态大语言模型（MLLMs）在视觉问答、图像描述等任务中的广泛应用，其推理能力尤其是数学几何问题的解决能力，逐渐成为研究热点。然而，现有方法大多依赖模板生成图像 - 文本对，泛化能力有限，且视

来自主题: AI技术研报

8110 点击 2025-09-26 13:30

ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力

在科研、新闻报道、数据分析等领域，图表是信息传递的核心载体。要让多模态大语言模型（MLLMs）真正服务于科学研究，必须具备以下两个能力

来自主题: AI技术研报

9455 点击 2025-08-22 10:35

告别数据「噪音」，UCSD大模型推理新方法DreamPRM充当「信号放大器」，登顶MathVista测评榜

使用过程奖励模型（PRM）强化大语言模型的推理能力已在纯文本任务中取得显著成果，但将过程奖励模型扩展至多模态大语言模型（MLLMs）时，面临两大难题：

来自主题: AI技术研报

9265 点击 2025-07-12 11:58

突破全模态AI理解边界：HumanOmniV2引入上下文强化学习，赋能全模态模型“意图”推理新高度

在多模态大语言模型（MLLMs）应用日益多元化的今天，对模型深度理解和分析人类意图的需求愈发迫切。尽管强化学习（RL）在增强大语言模型（LLMs）的推理能力方面已展现出巨大潜力，但将其有效应用于复杂的多模态数据和格式仍面临诸多挑战。

来自主题: AI技术研报

9668 点击 2025-07-09 10:59

首个GUI多模态大模型智能体可信评测框架+基准：MLA-Trust

MLA-Trust 是首个针对图形用户界面（GUI）环境下多模态大模型智能体（MLAs）的可信度评测框架。该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系，精心设计了 34 项高风险交互任务，横跨网页端与移动端双重测试平台，对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估，系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。

来自主题: AI技术研报

8916 点击 2025-07-05 13:02