AI资讯新闻榜单内容搜索-多模态模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态模型
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距

近年来,大语言模型(LLMs)以及多模态大模型(MLLMs)在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报
6248 点击    2025-06-07 14:20
GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了!360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。

来自主题: AI技术研报
8572 点击    2025-05-31 14:37
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%

多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。

来自主题: AI技术研报
6502 点击    2025-05-30 17:30
字节把GPT-4o级图像生成能力开源了!

字节把GPT-4o级图像生成能力开源了!

字节把GPT-4o级图像生成能力开源了!

字节最近真的猛猛开源啊……这一次,他们直接开源了GPT-4o级别的图像生成能力。不止于此,其最新融合的多模态模型BAGEL主打一个“大一统”, 将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。

来自主题: AI技术研报
7958 点击    2025-05-24 17:34
多模态长文本理解测评首发:46款模型无一攻克128K难关

多模态长文本理解测评首发:46款模型无一攻克128K难关

多模态长文本理解测评首发:46款模型无一攻克128K难关

来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了MMLongBench,旨在全面评估多模态模型的长文本理解能力。

来自主题: AI技术研报
6974 点击    2025-05-23 14:52
颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5

颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5

颜水成领衔,给AI分段位!超100款多模态模型,无人达到L5

理想中的多模态大模型应该是什么样?十所顶尖高校联合发布General-Level评估框架和General-Bench基准数据集,用五级分类制明确了多模态通才模型的能力标准。当前多模态大语言模型在任务支持、模态覆盖等方面存在不足,且多数通用模型未能超越专家模型,真正的通用人工智能需要实现模态间的协同效应。

来自主题: AI技术研报
7990 点击    2025-05-19 17:08