AI资讯新闻榜单内容搜索-多模态

Harmon：协调视觉表征，统一多模态理解和生成（模型已开源）

GPT-4o 生图功能的出现揭示了统一理解与生成模型的巨大潜力，然而如何在同一个框架内协调图像理解与生成这两种不同粒度的任务，是一个巨大的挑战。

来自主题: AI技术研报

9963 点击 2025-05-10 13:35

“DeepSeek告诉我们，投流的逻辑是不成立的。”5月8日，久不露面的阶跃星辰CEO姜大昕，出现在北京的一场媒体沟通会上“在多模态领域，如果任何一个方面有短板，都会延缓探索AGI进程。”姜大昕给出了一个鲜明的判断。过去一年中，他在不同场合都在反复提及：多模态是实现AGI的必经之路

来自主题: AI资讯

9669 点击 2025-05-10 10:52

4月29日，腾讯TEG进行架构调整，新成立大语言和多模态模型部，并对数据平台和机器学习平台职责进行调整。

来自主题: AI资讯

9255 点击 2025-05-09 14:28

多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用：

来自主题: AI技术研报

10325 点击 2025-05-09 11:51

用1/8成本比肩Claude 3.7，刚刚，“欧洲OpenAI”Mistral AI发布多模态新模型。

来自主题: AI资讯

12103 点击 2025-05-08 12:03

研究揭示早融合架构在低计算预算下表现更优，训练效率更高。混合专家（MoE）技术让模型动态适应不同模态，显著提升性能，堪称多模态模型的秘密武器。

来自主题: AI技术研报

11309 点击 2025-05-06 14:41

超越YOLOv3、Faster-RCNN，首个在COCO2017 val set上突破30AP的纯多模态开源LLM来啦！

来自主题: AI技术研报

9243 点击 2025-05-03 15:24

当前，多模态大模型驱动的图形用户界面（GUI）智能体在自动化手机、电脑操作方面展现出巨大潜力。然而，一些现有智能体更类似于「反应式行动者」（Reactive Actors），主要依赖隐式推理，面对需要复杂规划和错误恢复的任务时常常力不从心。

来自主题: AI技术研报

9433 点击 2025-05-02 20:21

在无数科幻电影中，增强现实（AR）通过在人们的眼前叠加动画、文字、图形等可视化信息，让人获得适时的、超越自身感知能力的信息。

来自主题: AI技术研报

8243 点击 2025-04-29 16:32

多模态大模型（MLLMs）在视觉理解与推理等领域取得了显著成就。然而，随着解码（decoding）阶段不断生成新的 token，推理过程的计算复杂度和 GPU 显存占用逐渐增加，这导致了多模态大模型推理效率的降低。

来自主题: AI技术研报

8730 点击 2025-04-29 14:56