OpenVision 2：大道至简的生成式预训练视觉编码器

5763点击 2025-09-16 09:37

本文来自加州大学圣克鲁兹分校（UCSC）、苹果公司（Apple）与加州大学伯克利分校（UCB）的合作研究。第一作者刘彦青，本科毕业于浙江大学，现为UCSC博士生，研究方向包括多模态理解、视觉-语言预训练与视觉基础模型。其余作者包括李先航（UCSC）、张乐天（USCS）、王子瑞（Apple）、郑泽宇（UCB）、周郁音（UCSC）。通讯作者为UCSC的谢慈航教授。

在多模态大模型快速演进的浪潮中，视觉模块一直是支撑整个体系的关键基石。长期以来，CLIP 式的图文对比学习几乎成为视觉预训练的默认思路。从 OpenAI 的 CLIP 到 Google 的 SigLIP，再到一系列开源复现，业界普遍认为：想要获得强大的视觉编码器，就必须依赖对比学习。

近日，来自加州大学圣克鲁兹分校、苹果公司、加州大学伯克利的研究者提出了 OpenVision 2，一种极简的生成式视觉预训练新方向。这项工作在保持最优性能的同时，大幅提升了训练效率，并在生成式框架下实现了 10 亿参数规模的可扩展训练。

✍🏻️论文标题：OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

📄 论文地址：arXiv:2509.01644

🌐 项目主页：https://ucsc-vlaa.github.io/OpenVision2

💻 代码与模型：GitHub · UCSC-VLAA/OpenVision

🤗 Hugging Face 模型库：OpenVision 2 on HuggingFace

OpenVision 2：大道至简的生成式预训练视觉编码器

从 OpenVision 到 OpenVision 2

今年早些时候，研究团队在 ICCV 发布了 OpenVision，这是一个完全基于公开数据和开源代码训练的视觉编码器家族，旨在为社区提供真正开放、透明、可复现的视觉骨干。

该项目一次性开源了超过 25 个预训练模型，参数量从 590 万到 6 亿+，覆盖多种 patch size 与分辨率设置，成为学术界和产业界构建多模态模型时的重要替代方案。

实验显示，OpenVision 在多个多模态基准任务上已经可以媲美甚至超越 OpenAI 的 CLIP 以及 Google 的 SigLIP，为社区提供了可靠的开源替代。

然而，OpenVision 的训练管线仍然偏复杂。为了充分利用高质量的合成描述，它在 CLIP 的基础上引入了两方面额外设计：

双重对比目标：每张图像既要和 web caption 对齐，又要和部分合成 caption 对齐，导致文本编码器的计算量几乎翻倍，训练成本也随之显著增加。

生成式 caption 预测：模型还需要在图像和原始 alt-text 的条件下，生成完整的合成描述，这进一步增加了解码器的计算开销。

这些设计确实提升了表征质量，但也让训练过程变得更重，计算成本更高，扩展到更大规模时受到明显限制。

OpenVision 2：大道至简的生成式预训练视觉编码器

极简思路：生成式的 OpenVision 2

在 OpenVision 2 中，研究者们做出了大胆简化：直接移除文本编码器与对比学习，只保留「图像 → 描述」的生成目标。由此形成的框架仅包含两个模块：图像编码器 + 文本解码器。

没有对比学习的双塔结构
没有额外的文本塔开销
依赖高质量合成描述作为唯一监督信号

除此之外，OpenVision 2 还引入了一个关键技巧：在预训练阶段随机丢弃约 2/3 的视觉 token，仅用剩下的 1/3 token 来生成完整描述。

一方面，这大幅减少了文本解码器的计算负担，显著提升了训练效率；
另一方面，这种「稀疏提示」迫使模型在有限条件下仍要还原出完整的 caption，从而提升了表征的抽象能力。

这种「以少胜多」的思路，使得 OpenVision 2 在保持性能的同时实现了更高的效率，也印证了「少即是多」的理念。

实验表明，这一简化设计不仅没有削弱模型能力，反而在效率与扩展性上表现突出：

性能：在 TextVQA、ChartQA、OCR、MME 等主流多模态基准上，OpenVision 2 与 OpenVision 几乎持平，甚至在部分细粒度任务上表现更佳。同时，相较于 OpenAI-CLIP、LAION-CLIP、MetaCLIP 等主流对比学习模型，OpenVision 系列在同等规模下整体表现更强，特别是在 OCR 与文本相关任务上优势明显。

OpenVision 2：大道至简的生成式预训练视觉编码器

为什么有效？

研究者总结了 OpenVision 2 作为生成式视觉编码器能够成功的三点关键原因：

生成式监督更贴近下游：生成任务与多模态大模型（如 LLaVA）的推理方式一致，减少了预训练与下游任务间的「目标错位」。

高质量合成描述：在 Recap-DataComp-1B v2 中，caption 的生成同时结合了图像和原始文本，使得描述更细致、更贴合语义，为预训练提供了更可靠的监督信号。

视觉 token 随机掩码（少即是多）：仅保留部分视觉 token 进行生成，既降低算力开销，又让模型在「信息不完整」的条件下学会抽取核心特征，从而提升泛化与鲁棒性。

OpenVision 2：大道至简的生成式预训练视觉编码器

对社区的意义

OpenVision 2 展示了一个重要事实：对比学习并非不可或缺。通过生成式的简洁框架，同样能够训练出强大的视觉编码器，并在效率和可扩展性上具备显著优势。

这项研究不仅挑战了长期以来的对比学习主导范式，也为未来多模态基础模型的发展提供了新的方向。正如作者们所强调的，「大道至简」的设计理念，展示了生成式视觉预训练在未来发展的潜力。

从 OpenVision 到 OpenVision 2，研究团队已经开源了超过 25 个不同规模和配置的模型，并完整公开了训练代码与数据管线，为学术界和产业界提供了可复现、可扩展的资源基础，加速社区在生成式视觉预训练方向上的探索。研究团队长期欢迎学界和业界的同学和朋友联系、交流、合作。

文章来自于微信公众号 “机器之心”，作者 “机器之心”

关键词: 模型训练 , 人工智能 , AI , OpenVision 2