AI资讯新闻榜单内容搜索-视觉

NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

人类高级视觉皮层在个体间存在显著的功能差异，而构建大脑编码模型（brain encoding models）—— 即能够从视觉刺激（如图像）预测人脑神经响应的计算模型 —— 是理解人类视觉系统如何表征世界的关键。传统视觉编码模型通常需要为每个新被试采集大量数据（数千张图像对应的脑活动），成本高昂且难以推广。

来自主题: AI技术研报

11043 点击 2025-11-19 15:21

ConsistEdit来了：无需训练，实现高精度、高一致性的视觉编辑新范式

无需额外训练即可适配预训练生成模型的编辑方法，凭借灵活、高效的特性，已成为视觉生成领域的研究热点。这类方法通过操控 Attention 机制（如 Prompt-to-Prompt、MasaCtrl）实现文本引导编辑，但当前技术存在两大核心痛点，严重限制其在复杂场景的应用

来自主题: AI技术研报

10739 点击 2025-11-19 15:19

视频模型真在推理，还是「表演」推理？港中文等质疑：Chain-of-Frame是真的吗？

近年来，以 Veo、Sora 为代表的视频生成模型展现出惊人的合成能力，能够生成高度逼真且时序连贯的动态画面。这类模型在视觉内容生成上的进步，表明其内部可能隐含了对世界结构与规律的理解。更令人关注的是，Google 的最新研究指出，诸如 Veo 3 等模型正在逐步显现出超越单纯合成的 “涌现特性”，包括感知、建模和推理等更高层次能力。

来自主题: AI技术研报

8510 点击 2025-11-19 09:06

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

长期以来，多模态代码生成（Multimodal Code Generation）的训练严重依赖于特定任务的监督微调（SFT）。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功，但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力，阻碍了通用视觉代码智能（Generalized VIsioN Code Intelligence）的发展。

来自主题: AI技术研报

10126 点击 2025-11-17 14:32

NeurIPS 2025 Spotlight | NYU提出QSVD，仅数学压缩让模型更轻、更快、更稳

在多模态智能浪潮中，视觉语言模型（Vision-Language Models, VLM）已成为连接视觉理解与语言生成的核心引擎。从图像描述、视觉问答到 AI 教育和交互系统，它们让机器能够「看懂世界、说人话」。

来自主题: AI技术研报

10425 点击 2025-11-17 09:53

3D视觉被过度设计？字节Depth Anything 3来了，谢赛宁点赞

机器之心报道编辑：泽南、杨文现在，只需要一个简单的、用深度光线表示训练的 Transformer 就行了。这项研究证明了，如今大多数 3D 视觉研究都存在过度设计的问题。本周五，AI 社区最热

来自主题: AI技术研报

8831 点击 2025-11-16 11:27

NeurIPS Spotlight｜GHAP：把3DGS“剪枝”变成“重建更小的高斯世界”

在三维视觉领域，3D Gaussian Splatting (3DGS) 是近年来大热的三维场景建模方法。它通过成千上万的高斯球在空间中“泼洒”，拼合成一个高质量的三维世界，就像是把一片空白的舞台，用彩色的光斑和粒子逐渐铺满，最后呈现出一幅立体的画卷。

来自主题: AI技术研报

10007 点击 2025-11-15 10:13

RAE+VAE? 预训练表征助力扩散模型Tokenizer，加速像素压缩到语义提取

近期，RAE（Diffusion Transformers with Representation Autoencoders）提出以「冻结的预训练视觉表征」直接作为潜空间，以显著提升扩散模型的生成性能。

来自主题: AI技术研报

11928 点击 2025-11-14 10:21

下一代目标检测模型：3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务

多模态大语言模型（MLLM）在目标定位精度上被长期诟病，难以匹敌传统的基于坐标回归的检测器。近日，来自 IDEA 研究院的团队通过仅有 3B 参数的通用视觉感知模型 Rex-Omni，打破了这一僵局。

来自主题: AI技术研报

7158 点击 2025-11-14 10:18

GRPO训练不再「自嗨」！快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

目前，GRPO 在图像和视频生成的流模型中取得了显著提升（如 FlowGRPO 和 DanceGRPO），已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。

来自主题: AI技术研报

9258 点击 2025-11-13 14:52