AI资讯新闻榜单内容搜索-LLaVA

14 项任务测下来，GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力？

2023-2024年，以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型（Multimodal LLMs）已经在文本和图像等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。

来自主题: AI技术研报

10198 点击 2024-05-10 23:32

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力，成为如今最领先的多模态大模型。

来自主题: AI技术研报

6313 点击 2024-04-07 17:46

中科大等意外发现：大模型不看图也能正确回答视觉问题！

大模型不看图，竟也能正确回答视觉问题？！中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。他们首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型，不管是闭源还是开源，语言模型还是多模态，竟然只根据在多模态基准MMMU测试中的问题和选项文本，就能获得不错的成绩。

来自主题: AI技术研报

7263 点击 2024-04-07 13:10

能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

2023 年我们正见证着多模态大模型的跨越式发展，多模态大语言模型（MLLM）已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。以 Llama 2，Mixtral 为代表的大语言模型（LLM），以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。

来自主题: AI资讯

10484 点击 2024-03-01 13:47