
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。
来自主题: AI技术研报
6450 点击 2025-05-30 17:30
多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。