AI资讯新闻榜单内容搜索-多模态大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态大模型
颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5

颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5

颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5

理想中的多模态大模型应该是什么样?十所顶尖高校联合发布General-Level评估框架和General-Bench基准数据集,用五级分类制明确了多模态通才模型的能力标准。当前多模态大语言模型在任务支持、模态覆盖等方面存在不足,且多数通用模型未能超越专家模型,真正的通用人工智能需要实现模态间的协同效应。

来自主题: AI技术研报
7990 点击    2025-05-19 17:08
GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式

GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式

GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式

多模态大模型(Multimodal Large Language Models, MLLM)正迅速崛起,从只能理解单一模态,到如今可以同时理解和生成图像、文本、音频甚至视频等多种模态。正因如此,在AI竞赛进入“下半场”之际(由最近的OpenAI研究员姚顺雨所引发的共识观点),设计科学的评估机制俨然成为决定胜负的核心关键。

来自主题: AI技术研报
6964 点击    2025-05-16 15:06
大模型狙击黑产:挚文集团社交生态攻防实战全揭秘

大模型狙击黑产:挚文集团社交生态攻防实战全揭秘

大模型狙击黑产:挚文集团社交生态攻防实战全揭秘

在 InfoQ 举办的 AICon 全球人工智能开发与应用大会上摯文集团生态技术负责人李波做了专题演讲“大模型在社交生态领域的落地实践”,演讲从摯文集团实际的生态问题出发,从多模态大模型如何进行对抗性生态内容理解、如何进行细粒度用户性质判定,以及如何进行人机协同降本提效等方向展开。

来自主题: AI资讯
7936 点击    2025-05-15 18:44
首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源

首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源

首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源

在多模态大模型快速发展的当下,如何精准评估其生成内容的质量,正成为多模态大模型与人类偏好对齐的核心挑战。然而,当前主流多模态奖励模型往往只能直接给出评分决策,或仅具备浅层推理能力,缺乏对复杂奖励任务的深入理解与解释能力,在高复杂度场景中常出现 “失真失准”。

来自主题: AI技术研报
8880 点击    2025-05-14 11:01
浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于「反应式行动者」(Reactive Actors),主要依赖隐式推理,面对需要复杂规划和错误恢复的任务时常常力不从心。

来自主题: AI技术研报
7022 点击    2025-05-02 20:21
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%

ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%

ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%

多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推理效率的降低。

来自主题: AI技术研报
5893 点击    2025-04-29 14:56
首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期GPT-4o,Gemini-2.0-flash都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如图像+文本输入,生成图像或文本。

来自主题: AI技术研报
7004 点击    2025-04-10 10:20