AI资讯新闻榜单内容搜索-LLaVA

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: LLaVA

多模态大模型存在「内心预警」，无需训练，就能识别越狱攻击

多模态大模型存在「内心预警」，无需训练，就能识别越狱攻击

多模态大模型存在「内心预警」，无需训练，就能识别越狱攻击

多模态大模型崛起，安全问题紧随其后近年来，大语言模型（LLMs）的突破式进展，催生了视觉语言大模型（LVLMs）的快速兴起，代表作如 GPT-4V、LLaVA 等。

来自主题: AI技术研报

8270 点击 2025-07-22 09:55

前OpenAI高管新作力挺模型思考，哈佛却称AI越「想」越笨

前OpenAI高管新作力挺模型思考，哈佛却称AI越「想」越笨

前OpenAI高管新作力挺模型思考，哈佛却称AI越「想」越笨

AI是否真正在「思考」乃至产生意识，正成为科学和哲学交汇的核心议题。前OpenAI负责人翁荔认为，增加模型的「思考时间」有助突破复杂推理瓶颈；哈佛等机构则指出思维链可能导致「降智」；而生物学家Mallavarapu断言数字计算机永不可能拥有意识。

来自主题: AI技术研报

7961 点击 2025-05-26 10:43

ICLR 2025｜首个动态视觉-文本稀疏化框架来了，计算开销直降50%-75%

ICLR 2025｜首个动态视觉-文本稀疏化框架来了，计算开销直降50%-75%

ICLR 2025｜首个动态视觉-文本稀疏化框架来了，计算开销直降50%-75%

多模态大模型（MLLMs）在视觉理解与推理等领域取得了显著成就。然而，随着解码（decoding）阶段不断生成新的 token，推理过程的计算复杂度和 GPU 显存占用逐渐增加，这导致了多模态大模型推理效率的降低。

来自主题: AI技术研报

6093 点击 2025-04-29 14:56

北航推出TinyLLaVA-Video，有限计算资源优于部分7B模型，代码、模型、训练数据全开源

北航推出TinyLLaVA-Video，有限计算资源优于部分7B模型，代码、模型、训练数据全开源

北航推出TinyLLaVA-Video，有限计算资源优于部分7B模型，代码、模型、训练数据全开源

近日，北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目，推出小尺寸简易视频理解框架 TinyLLaVA-Video，其模型，代码以及训练数据全部开源。在计算资源需求显著降低的前提下，训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B + 模型。

来自主题: AI技术研报

6964 点击 2025-02-10 16:54

LLaVA-Mini来了！每张图像所需视觉token压缩至1个，兼顾效率内存

LLaVA-Mini来了！每张图像所需视觉token压缩至1个，兼顾效率内存

LLaVA-Mini来了！每张图像所需视觉token压缩至1个，兼顾效率内存

以 GPT-4o 为代表的实时交互多模态大模型（LMMs）引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens，并将其嵌入大语言模型（LLM）上下文来实现视觉信息理解。

来自主题: AI技术研报

2866 点击 2025-02-06 15:26

小身板大能量：树莓派玩转 Phi-2、Mistral 和 LLaVA 等AI大模型~

小身板大能量：树莓派玩转 Phi-2、Mistral 和 LLaVA 等AI大模型~

小身板大能量：树莓派玩转 Phi-2、Mistral 和 LLaVA 等AI大模型~

你是否想过在自己的设备上运行自己的大型语言模型（LLMs）或视觉语言模型（VLMs）？你可能有过这样的想法，但是一想到要从头开始设置、管理环境、下载正确的模型权重，以及你的设备是否能处理这些模型的不确定性，你可能就犹豫了。

来自主题: AI技术研报

7655 点击 2024-12-30 16:53

用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒

用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒

用LLaVA解读数万神经元，大模型竟然自己打开了多模态智能黑盒

以 GPT4V 为代表的多模态大模型（LMMs）在大语言模型（LLMs）上增加如同视觉的多感官技能，以实现更强的通用智能。虽然 LMMs 让人类更加接近创造智慧，但迄今为止，我们并不能理解自然与人工的多模态智能是如何产生的。

来自主题: AI技术研报

6175 点击 2024-12-07 15:02

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

在多模态AI领域，基于预训练视觉编码器与MLLM的方法（如LLaVA系列）在视觉理解任务上展现出卓越性能。

来自主题: AI技术研报

8340 点击 2024-11-22 15:54

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

北大等出品，首个多模态版o1开源模型来了—— 代号LLaVA-o1，基于Llama-3.2-Vision模型打造，超越传统思维链提示，实现自主“慢思考”推理。在多模态推理基准测试中，LLaVA-o1超越其基础模型8.9%，并在性能上超越了一众开闭源模型。

来自主题: AI技术研报

5407 点击 2024-11-19 21:01

幻觉不一定有害，新框架用AI的「幻觉」优化图像分割技术

幻觉不一定有害，新框架用AI的「幻觉」优化图像分割技术

幻觉不一定有害，新框架用AI的「幻觉」优化图像分割技术

在人工智能领域，大型预训练模型（如 GPT 和 LLaVA）的 “幻觉” 现象常被视为一个难以克服的挑战，尤其是在执行精确任务如图像分割时。

来自主题: AI技术研报

7622 点击 2024-11-03 17:53

上一页当前第1页,共3页下一页