AI资讯新闻榜单内容搜索-视觉

RAE+VAE? 预训练表征助力扩散模型Tokenizer，加速像素压缩到语义提取

近期，RAE（Diffusion Transformers with Representation Autoencoders）提出以「冻结的预训练视觉表征」直接作为潜空间，以显著提升扩散模型的生成性能。

来自主题: AI技术研报

10462 点击 2025-11-14 10:21

下一代目标检测模型：3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务

多模态大语言模型（MLLM）在目标定位精度上被长期诟病，难以匹敌传统的基于坐标回归的检测器。近日，来自 IDEA 研究院的团队通过仅有 3B 参数的通用视觉感知模型 Rex-Omni，打破了这一僵局。

来自主题: AI技术研报

5986 点击 2025-11-14 10:18

GRPO训练不再「自嗨」！快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

目前，GRPO 在图像和视频生成的流模型中取得了显著提升（如 FlowGRPO 和 DanceGRPO），已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。

来自主题: AI技术研报

7918 点击 2025-11-13 14:52

NeurIPS 25开新坑：145万个图文对，覆盖八种主流水下理解任务

华中科技大学团队推出首个水下多模态大模型NAUTILUS，支持8种水下场景理解任务，并开源145万图文对的NautData数据集。模型通过视觉特征增强模块解决水下图像模糊和颜色失真问题，性能超越现有模型，恶劣环境下表现更佳。

来自主题: AI技术研报

10546 点击 2025-11-12 17:16

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

复旦⼤学、上海创智学院与新加坡国立⼤学联合推出全模态端到端操作⼤模型 RoboOmni，统⼀视觉、⽂本、听觉与动作模态，实现动作⽣成与语⾳交互的协同控制。开源 140K 条语⾳ - 视觉 - ⽂字「情境指令」真机操作数据，引领机器⼈从「被动执⾏⼈类指令」迈向「主动提供服务」新时代。

来自主题: AI技术研报

8973 点击 2025-11-12 09:29

MIT融合新旧视觉技术，破解救援机器人导航瓶颈，无需标定，数秒生成3D场景

在一场矿难救援中，时间意味着生命。想象一台搜救机器人在部分坍塌的矿井中穿行：浓烟、碎石、扭曲的金属梁。它必须在险象环生的环境中迅速绘制地图，识别路径，并精准定位自己的位置。

来自主题: AI技术研报

8200 点击 2025-11-12 08:51

英伟达新架构引爆全模态大模型革命，OmniVinci 9B模型开源下载即破万

OmniVinci是英伟达推出的全模态大模型，能精准解析视频和音频，尤其擅长视觉和听觉信号的时序对齐。它以90亿参数规模，性能超越同级别甚至更高级别模型，训练数据效率是对手的6倍，大幅降低成本。在视频内容理解、语音转录、机器人导航等场景中，OmniVinci能提供高效支持，展现出卓越的多模态应用能力。

来自主题: AI资讯

8028 点击 2025-11-08 11:23

北大团队让AI学会考古！全球首个古希腊陶罐3D视觉问答数据集发布，还配了专用模型

现在AI都懂文物懂历史了。一项来自北京大学的最新研究引发关注：他们推出了全球首个面向古希腊陶罐的3D视觉问答数据集——VaseVQA-3D，并配套推出了专用视觉语言模型VaseVLM。这意味着，AI正在从“识图机器”迈向“文化考古Agent”。

来自主题: AI技术研报

7991 点击 2025-11-07 14:49

Feed-Forward 3D综述：三维视觉如何「一步到位」

在 3D 视觉领域，如何从二维图像快速、精准地恢复三维世界，一直是计算机视觉与计算机图形学最核心的问题之一。从早期的 Structure-from-Motion (SfM) 到 Neural Radiance Fields (NeRF)，再到 3D Gaussian Splatting (3DGS)，技术的演进让我们离实时、通用的 3D 理解越来越近。

来自主题: AI技术研报

6151 点击 2025-11-07 10:15

中英双语、29项第一、像素级理解：360 FG-CLIP2登顶全球最强图文跨模态模型

这年头，AI 创造的视觉世界真是炫酷至极。但真要跟细节较真儿，这些大模型的「眼力见儿」可就让人难绷了。

来自主题: AI技术研报

7061 点击 2025-11-06 10:34