AI资讯新闻榜单内容搜索-VLM

全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

OpenAI o3的多轮视觉推理，有开源平替版了。并且，与先前局限于1-2轮对话的视觉语言模型（VLM）不同，它在训练限制轮数只有6轮的情况下，测试阶段能将思考轮数扩展到数十轮。

来自主题: AI技术研报

9555 点击 2025-09-16 10:02

苹果端侧AI两连发！模型体积减半、首字延迟降85倍，iPhone离线秒用

苹果在 Hugging Face上放大招了！这次直接甩出两条多模态主线：FastVLM主打「快」，字幕能做到秒回；MobileCLIP2主打「轻」，在 iPhone 上也能起飞。更妙的是，模型和Demo已经全开放，Safari网页就能体验。大模型，真·跑上手机了。

来自主题: AI资讯

9207 点击 2025-09-08 11:34

苹果新研究：不微调、不重训，如何让AI提问效率暴增6.5倍？

在这场以大型语言模型（LLM）为核心的 AI 浪潮中，苹果似乎一直保持着低调，很少出现在技术报道的前沿。尽管如此，时不时地，该公司也能拿出一些非常亮眼的研究成果，比如能在 iPhone 上直接运行的高效视觉语言模型 FastVLM。

来自主题: AI技术研报

9266 点击 2025-09-03 13:04

真实场景也能批量造「险」！VLM+扩散模型打造真实域自动驾驶极限测试

浙江大学与哈工大（深圳）联合推出SafeMVDrive，利用扩散模型结合VLM实现批量化多视角真实域的安全关键视频生成。该方法在保持画质与真实感的同时，显著增强了驾驶场景的危险性。生成的场景用于端到端自动驾驶系统的极限压测，可使得模型的碰撞率提升50倍。

来自主题: AI技术研报

7767 点击 2025-08-26 10:47

已经有800万人，开始拥有《Her》里的Samantha

4 个月前，OpenAI 的 o3 模型凭借视觉推理能力模块和智能的进化，在 AI 创投圈子引起新一轮的震撼与海啸，解锁了一大批新的「套壳」创业机会。正如我们在《谢谢 OpenAI，谢谢 o3，新的「套壳」创业机会来了 | 附 12 个潜力方向》一文中预测的那样，VLM 确实带来了新的创业机会。

来自主题: AI资讯

9064 点击 2025-08-21 14:46

ICCV 2025 | 跨越视觉与语言边界，打开人机交互感知的新篇章：北大团队提出INP-CC模型重塑开放词汇HOI检测

目前的 HOI 检测方法普遍依赖视觉语言模型（VLM），但受限于图像编码器的表现，难以有效捕捉细粒度的区域级交互信息。本文介绍了一种全新的开集人类-物体交互（HOI）检测方法——交互感知提示与概念校准（INP-CC）。

来自主题: AI技术研报

7722 点击 2025-08-20 11:05

刚刚，小红书开源了首个多模态大模型dots.vlm1，性能直追SOTA！

擅长「种草」的小红书正加大技术自研力度，两个月内接连开源三款模型！最新开源的首个多模态大模型dots.vlm1，基于自研视觉编码器构建，实测看穿色盲图，破解数独，解高考数学题，一句话写李白诗风，视觉理解和推理能力都逼近Gemini 2.5 Pro闭源模型。

来自主题: AI资讯

8787 点击 2025-08-07 18:41

腾讯AI Lab开源可复现的深度研究智能体，最大限度降低外部依赖

深度研究智能体（Deep Research Agents）凭借大语言模型（LLM）和视觉-语言模型（VLM）的强大能力，正在重塑知识发现与问题解决的范式。

来自主题: AI资讯

7782 点击 2025-08-06 15:38

3D-R1：让AI理解3D世界的下一步

在人工智能快速发展的今天，我们已逐渐习惯于让 AI 识别图像、理解语言，甚至与之对话。但当我们进入真实三维世界，如何让 AI 具备「看懂场景」、「理解空间」和「推理复杂任务」的能力？这正是 3D 视觉语言模型（3D VLM）所要解决的问题。

来自主题: AI技术研报

7450 点击 2025-08-04 20:04

关于机器人数据，强化学习大佬Sergey Levine刚刚写了篇好文章

我们知道，训练大模型本就极具挑战，而随着模型规模的扩大与应用领域的拓展，难度也在不断增加，所需的数据更是海量。大型语言模型（LLM）主要依赖大量文本数据，视觉语言模型（VLM）则需要同时包含文本与图像的数据，而在机器人领域，视觉 - 语言 - 行动模型（VLA）则要求大量真实世界中机器人执行任务的数据。

来自主题: AI资讯

8574 点击 2025-07-22 14:57