AI资讯新闻榜单内容搜索-编码器

RAE的终极形态？北大&阿里提出UniLIP: 将CLIP拓展到重建、生成和编辑

统一多模态模型要求视觉表征必须兼顾语义（理解）和细节（生成 / 编辑）。早期 VAE 因语义不足而理解受限。近期基于 CLIP 的统一编码器，面临理解与重建的权衡：直接量化 CLIP 特征会损害理解性能；而为冻结的 CLIP 训练解码器，又因特征细节缺失而无法精确重建。例如，RAE 使用冻结的 DINOv2 重建，PSNR 仅 19.23。

来自主题: AI技术研报

8991 点击 2025-11-03 09:50

天下苦VAE久矣：阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖

近年来，基于扩散模型的图像生成技术发展迅猛，催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。然而，当前主流的训练范式普遍依赖一个核心组件——变分自编码器（VAE），这也带来了长久以来困扰研究者们的几个问题：

来自主题: AI技术研报

7328 点击 2025-10-30 17:03

高效训练新标杆！华人团队开源原生VLM-NEO，以少数据追平顶级模型

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

来自主题: AI技术研报

8485 点击 2025-10-30 10:55

无VAE扩散模型！清华&可灵团队「撞车」谢赛宁团队「RAE」

长期以来，扩散模型的训练通常依赖由变分自编码器（VAE）构建的低维潜空间表示。然而，VAE 的潜空间表征能力有限，难以有效支撑感知理解等核心视觉任务，同时「VAE + Diffusion」的范式在训练

来自主题: AI技术研报

7280 点击 2025-10-23 15:10

LLaVA-OneVision-1.5全流程开源，8B模型预训练只需4天、1.6万美元

LLaVA 于 2023 年提出，通过低成本对齐高效连接开源视觉编码器与大语言模型，使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及，明显缩小了与顶级闭源模型的差距，标志着开源多模态范式的重要里程碑。

来自主题: AI技术研报

10167 点击 2025-10-15 12:12

谢赛宁新作：VAE退役，RAE当立

谢赛宁团队最新研究给出了答案——VAE的时代结束，RAE将接力前行。其中表征自编码器RAE（Representation Autoencoders）是一种用于扩散Transformer（DiT）训练的新型自动编码器，其核心设计是用预训练的表征编码器（如DINO、SigLIP、MAE 等）与训练后的轻量级解码器配对，从而替代传统扩散模型中依赖的VAE（变分自动编码器）。

来自主题: AI技术研报

8877 点击 2025-10-14 16:34