AI资讯新闻榜单内容搜索-MLLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: MLLM
首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期GPT-4o,Gemini-2.0-flash都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如图像+文本输入,生成图像或文本。

来自主题: AI技术研报
7116 点击    2025-04-10 10:20
CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集

CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集

CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集

北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei,首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。该框架通过创新的掩码交叉注意力机制与文本兼容的角色适配器,实现了对多角色外观、表情、动作的精确控制

来自主题: AI技术研报
8281 点击    2025-03-07 14:15
生成与理解相互促进!华科字节提出Liquid,揭示统一多模态模型尺度规律!

生成与理解相互促进!华科字节提出Liquid,揭示统一多模态模型尺度规律!

生成与理解相互促进!华科字节提出Liquid,揭示统一多模态模型尺度规律!

近年来大语言模型(LLM)的迅猛发展正推动人工智能迈向多模态融合的新纪元。然而,现有主流多模态大模型(MLLM)依赖复杂的外部视觉模块(如 CLIP 或扩散模型),导致系统臃肿、扩展受限,成为跨模态智能进化的核心瓶颈。

来自主题: AI技术研报
8245 点击    2025-03-04 09:52
多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈

多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈

多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈

尽管多模态大语言模型(MLLMs)取得了显著的进展,但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域(例如减少幻觉问题),是否与人类偏好对齐可以全面提升MLLM的各种能力仍是一个未知数。

来自主题: AI技术研报
9430 点击    2025-02-26 14:07
Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破

Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破

Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破

近年来,多模态大模型(MLLM)在视觉理解领域突飞猛进,但如何让大语言模型(LLM)低成本掌握视觉生成能力仍是业界难题!

来自主题: AI资讯
5211 点击    2025-02-17 09:37
将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思

将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思

将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思

尽管多模态大语言模型(MLLM)在简单任务上最近取得了显著进展,但在复杂推理任务中表现仍然不佳。费曼的格言可能是这种现象的完美隐喻:只有掌握推理过程的每一步,才能真正解决问题。然而,当前的 MLLM 更擅长直接生成简短的最终答案,缺乏中间推理能力。本篇文章旨在开发一种通过学习创造推理过程中每个中间步骤直至最终答案的 MLLM,以实现问题的深入理解与解决。

来自主题: AI技术研报
5838 点击    2025-02-07 16:16
27页综述,354篇参考文献!最详尽的视觉定位综述来了

27页综述,354篇参考文献!最详尽的视觉定位综述来了

27页综述,354篇参考文献!最详尽的视觉定位综述来了

27 页综述,354 篇参考文献!史上最详尽的视觉定位综述,内容覆盖过去十年的视觉定位发展总结,尤其对最近 5 年的视觉定位论文系统性回顾,内容既涵盖传统基于检测器的视觉定位,基于 VLP 的视觉定位,基于 MLLM 的视觉定位,也涵盖从全监督、无监督、弱监督、半监督、零样本、广义定位等新型设置下的视觉定位。

来自主题: AI技术研报
6154 点击    2025-02-01 18:11