AI资讯新闻榜单内容搜索-视觉

具身智能一步踏入Scaling Law！10B+基础模型，27万小时真实数据

当前机器人领域，基础模型主要基于「视觉-语言预训练」，这样可将现有大型多模态模型的语义泛化优势迁移过来。但是，机器人的智能确实能随着算力和数据的增加而持续提升吗？我们能预测这种提升吗？

来自主题: AI技术研报

6380 点击 2025-11-05 16:42

RAE的终极形态？北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

统一多模态模型要求视觉表征必须兼顾语义（理解）和细节（生成 / 编辑）。早期 VAE 因语义不足而理解受限。近期基于 CLIP 的统一编码器，面临理解与重建的权衡：直接量化 CLIP 特征会损害理解性能；而为冻结的 CLIP 训练解码器，又因特征细节缺失而无法精确重建。例如，RAE 使用冻结的 DINOv2 重建，PSNR 仅 19.23。

来自主题: AI技术研报

7844 点击 2025-11-03 09:50

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。

来自主题: AI资讯

7845 点击 2025-11-03 09:41

内存直降50%，token需求少56%！用视觉方式处理长文本

在NeurIPS 2025论文中，来自「南京理工大学、中南大学、南京林业大学」的研究团队提出了一个极具突破性的框架——VIST（Vision-centric Token Compression in LLM），为大语言模型的长文本高效推理提供了全新的「视觉解决方案」。值得注意的是，这一思路与近期引起广泛关注的DeepSeek-OCR的核心理念不谋而合。

来自主题: AI技术研报

8563 点击 2025-11-01 09:23

最火VLA，看这一篇综述就够了

ICLR 2026爆火领域VLA（Vision-Language-Action，视觉-语言-动作）全面综述来了！如果你还不了解VLA是什么，以及这个让机器人学者集体兴奋的领域进展如何，看这一篇就够了。

来自主题: AI技术研报

7726 点击 2025-10-31 14:59

高效训练新标杆！华人团队开源原生VLM-NEO，以少数据追平顶级模型

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

来自主题: AI技术研报

7363 点击 2025-10-30 10:55

牛津VGG、港大、上交发布ELIP：超越CLIP等，多模态图片检索的增强视觉语言大模型预训练

多模态图片检索是计算机视觉和多模态机器学习领域很重要的一个任务。现在大家做多模态图片检索一般会用 CLIP/SigLIP 这种视觉语言大模型，因为他们经过了大规模的预训练，所以 zero-shot 的能力比较强。

来自主题: AI技术研报

6395 点击 2025-10-30 10:42

3B Image Captioning小钢炮重磅来袭，性能比肩Qwen2.5-VL-72B

今天推荐一个 Dense Image Captioning 的最新技术 —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功将 DeepSeek-R1 的强化学习方法应用到 image captioning 这种开放视觉任务，创新的以实用性重新定义 image captioning 的 reward。

来自主题: AI技术研报

9576 点击 2025-10-29 10:24

大模型在具身推理上「翻车」了？4496 道题全面揭示短板

具身智能是近年来非常火概念。一个智能体（比如人）能够在环境中完成感知、理解与决策的闭环，并通过环境反馈不断进入新一轮循环，直至任务完成。这一过程往往依赖多种技能，涵盖了底层视觉对齐，空间感知，到上层决策的不同能力，这些能力便是广义上的具身智能。

来自主题: AI技术研报

6308 点击 2025-10-28 13:44

让VLM学会「心中有世界」：VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

当今的 AI 智能体（Agent）越来越强大，尤其是像 VLM（视觉-语言模型）这样能「看懂」世界的智能体。但研究者发现一个大问题：相比于只处理文本的 LLM 智能体，VLM 智能体在面对复杂的视觉任务时，常常表现得像一个「莽撞的执行者」，而不是一个「深思熟虑的思考者」。

来自主题: AI技术研报

7358 点击 2025-10-28 09:26