AI资讯新闻榜单内容搜索-视觉语言模型

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 视觉语言模型

3D-R1：让AI理解3D世界的下一步

3D-R1：让AI理解3D世界的下一步

3D-R1：让AI理解3D世界的下一步

在人工智能快速发展的今天，我们已逐渐习惯于让 AI 识别图像、理解语言，甚至与之对话。但当我们进入真实三维世界，如何让 AI 具备「看懂场景」、「理解空间」和「推理复杂任务」的能力？这正是 3D 视觉语言模型（3D VLM）所要解决的问题。

来自主题: AI技术研报

6443 点击 2025-08-04 20:04

关于机器人数据，强化学习大佬Sergey Levine刚刚写了篇好文章

关于机器人数据，强化学习大佬Sergey Levine刚刚写了篇好文章

关于机器人数据，强化学习大佬Sergey Levine刚刚写了篇好文章

我们知道，训练大模型本就极具挑战，而随着模型规模的扩大与应用领域的拓展，难度也在不断增加，所需的数据更是海量。大型语言模型（LLM）主要依赖大量文本数据，视觉语言模型（VLM）则需要同时包含文本与图像的数据，而在机器人领域，视觉 - 语言 - 行动模型（VLA）则要求大量真实世界中机器人执行任务的数据。

来自主题: AI资讯

7625 点击 2025-07-22 14:57

看遍奥斯卡后，VLM达到电影摄影理解新SOTA｜上海AI Lab开源

看遍奥斯卡后，VLM达到电影摄影理解新SOTA｜上海AI Lab开源

看遍奥斯卡后，VLM达到电影摄影理解新SOTA｜上海AI Lab开源

当前最强大的视觉语言模型（VLMs）虽然能“看图识物”，但在理解电影方面还不够“聪明”。

来自主题: AI技术研报

9128 点击 2025-07-17 10:19

单向VLM变双向！人大斯坦福等提出MoCa框架：双向多模态编码器

单向VLM变双向！人大斯坦福等提出MoCa框架：双向多模态编码器

单向VLM变双向！人大斯坦福等提出MoCa框架：双向多模态编码器

MoCa框架把单向视觉语言模型转化为双向多模态嵌入模型，通过持续预训练和异构对比微调，提升模型性能和泛化能力，在多模态基准测试中表现优异，尤其小规模模型性能突出。

来自主题: AI技术研报

9184 点击 2025-07-11 10:09

无损加速视觉语言模型推理！轻松剪掉视觉冗余Token｜腾讯AI Lab

无损加速视觉语言模型推理！轻松剪掉视觉冗余Token｜腾讯AI Lab

无损加速视觉语言模型推理！轻松剪掉视觉冗余Token｜腾讯AI Lab

多图像、长视频、细粒度感知正在让大型视觉语言模型（LVLM）变得越来越聪明，但也越来越“吃不消”：视觉Token数量的激增所带来的推理成本暴涨，正逐渐成为多模态智能扩展的最大算力瓶颈。

来自主题: AI技术研报

7070 点击 2025-07-05 19:00

9B“小”模型干了票“大”的：性能超8倍参数模型，拿下23项SOTA | 智谱开源

9B“小”模型干了票“大”的：性能超8倍参数模型，拿下23项SOTA | 智谱开源

9B“小”模型干了票“大”的：性能超8倍参数模型，拿下23项SOTA | 智谱开源

如果一个视觉语言模型（VLM）只会“看”，那真的是已经不够看的了。

来自主题: AI技术研报

9261 点击 2025-07-02 15:56

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而，它们在长视频理解和检索等长上下文任务中仍表现不佳。

来自主题: AI技术研报

6851 点击 2025-06-30 10:24

AI 开始「自由玩电脑」了！吉大提出「屏幕探索者」智能体

AI 开始「自由玩电脑」了！吉大提出「屏幕探索者」智能体

AI 开始「自由玩电脑」了！吉大提出「屏幕探索者」智能体

迈向通用人工智能（AGI）的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，智能体已展现出令人瞩目的跨领域任务泛化能力。

来自主题: AI技术研报

7192 点击 2025-06-28 11:18

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

当前大型视觉语言模型（LVLMs）存在物体幻觉问题，即会生成图像中不存在的物体描述。

来自主题: AI技术研报

9288 点击 2025-06-27 16:26

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

视觉语言模型（VLM）正经历从「感知」到「认知」的关键跃迁。当OpenAI的o3系列通过「图像思维」（Thinking with Images）让模型学会缩放、标记视觉区域时，我们看到了多模态交互的全新可能。

来自主题: AI技术研报

7323 点击 2025-06-10 14:45

上一页当前第2页,共6页下一页