吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

8598点击 2025-08-15 20:36

无需人工标注，吞下17亿张图片，Meta用自监督学习炼出「视觉全能王」！NASA已将它送上火星，医疗、卫星、自动驾驶领域集体沸腾。

17亿张图片，Meta训出70亿参数「视觉巨兽」DINOv3，完全开源了！

通过自监督学习（SSL）训练，DINOv3可生成强大且高分辨率的图像特征。

在多个密集预测任务中，这是单一固定的视觉主干网络第一次超越专用解决方案。

DINOv3重新定义计算机视觉性能天花板，在多个基准测试中刷新或逼近最佳成绩！

吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

美国的NASA甚至已在火星探索上用上了DINOv3。这是真上天了！

就在大家以为Meta在AI竞赛上被淘汰之时，Meta这次总算扬眉吐气。

吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

而且，这次Meta是真开源：DINOv3不仅可商用，还开源了完整的预训练主干网络、适配器、训练与评估代码等「全流程」。

吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

项目地址：https://github.com/facebookresearch/dinov3

全部checkpoint：https://huggingface.co/collections/facebook/dinov3-68924841bd6b561778e31009

DINOv3亮点如下👇：

1.SSL支持在无需标签的情况下对含17亿张图像、70亿参数的模型进行训练，适用于标注资源稀缺的场景，包括卫星图像。

2.生成出色的高分辨率特征，并在密集预测任务上实现最先进的性能。

3.多样化的视觉任务和领域应用，全部采用冻结主干（无需微调）。

4.包含蒸馏后更小的模型（ViT-B、ViT-L和ConvNeXt 变体，以实现灵活部署。

吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

自监督学习的新胜利

自监督学习无需人工标注数据即可独立学习，已成为现代机器学习领域的主导范式。

大语言模型崛起全在于此：通过在海量文本语料库上进行预训练来获取通用表征。然而，计算机视觉领域的进展却相对滞后，因为目前最强大的图像编码模型在训练时仍严重依赖人工生成的元数据，例如网络图片标题。

DINOv3改变了这一切：

吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

DINOv3提出了新的无监督学习技术，极大地减少了训练所需的时间和资源。

这种免标注的方法尤其适用于标注稀缺、成本高昂或根本无法获取标注的场景。例如，使用卫星影像预训练的 DINOv3骨干网络，在树冠高度估计等下游任务中表现卓越。

不仅能加速现有应用的发展，DINOv3还有可能解锁全新的应用场景，推动医疗保健、环境监测、自动驾驶、零售、制造等行业的进步，实现更精准、高效的大规模视觉理解。

史无前例：自监督学习超越弱监督

DINOv3再次刷新了里程碑——首次证明自监督学习（SSL）模型能够在广泛任务中超越弱监督模型的表现。

DINOv3延续了DINO算法，不需要任何元数据输入，但这次所需训练算力仅为以往方法的一小部分，却依然能产出极其强大的视觉基础模型。

吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

借助这些全新改进，在竞争激烈的下游任务（如在冻结权重条件下的目标检测）中，DINOv3也能取得当前最优表现。

吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

这意味着研究者和开发者无需为特定任务进行微调，即可将其直接应用于更广泛、更高效的场景。

此外，DINO方法并未针对特定图像模态进行优化，它不仅适用于网络图像，还能推广到那些标注极其困难或成本高昂的领域。

DINOv2已经利用海量无标注数据，支持了组织病理学、内窥镜及医学影像等方向的诊断与科研工作。而在卫星与航空影像领域，数据量庞大且复杂，使人工标注几乎不可行。

DINOv3能够将这些丰富的数据集用于训练一个通用骨干网络（single backbone），并跨不同类型的卫星图像，实现环境监测、城市规划、灾害应对等多种应用。

DINOv3已在现实世界产生了影响。

世界资源研究所（WRI） 正在使用新模型监测森林砍伐并支持生态修复，帮助当地团体保护脆弱的生态系统。依托DINOv3，WRI分析卫星影像，检测受影响生态区域的树木损失和土地利用变化。

吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

DINOv3带来的精度提升，使其能够自动化气候金融拨款流程，通过验证修复成果来降低交易成本，加速资金流向本地小型组织。

例如，与DINOv2相比，在对肯尼亚某地区的树冠高度进行测量时，使用卫星与航空影像训练的DINOv3将平均误差从4.1 米降至1.2 米。

无需微调也能实现高效Scaling

相较前一代DINOv2，DINOv3在规模上有了大幅提升：

模型参数扩大了7倍，训练数据量也提升了12倍。

为了验证它的多样性，在15项不同的视觉任务和超过60个基准测试上，Meta团队全面评估了DINOv3。

在各种密集预测（dense prediction）任务中，DINOv3的骨干网络表现出色，展现出对场景结构和物理属性的深刻理解。

吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

DINOv3 能提取出丰富的密集特征（dense features），为图像中每个像素生成包含可测量属性的浮点向量。这些特征不仅能帮助识别物体的细节结构，还能在不同实例和类别之间实现泛化。

吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

凭借这种强大的表示能力，即便只使用少量标注数据和一个简单的线性模型，再加上一些轻量适配器，也能在 DINOv3上实现稳健的密集预测效果。如果再结合更复杂的解码器，甚至可以在无需对骨干模型进行微调的前提下，在目标检测、语义分割和相对深度估计等经典计算机视觉任务中达到当前最先进的水平。

吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

由于无需微调，在一次前向计算中，DINOv3 就能同时服务于多个视觉任务，从而多个任务可以共享计算开销。

这对于那些在边缘设备上需要并行执行多项视觉处理的场景尤为关键。

DINOv3出色的通用性和高效率，使它成为此类应用的理想选择。

NASA的喷气推进实验室（JPL）已经在使用 DINOv2 构建火星探测机器人，实现了在极低计算资源下完成多项视觉任务的目标。

吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

适合实际部署

多个模型全开源

DINOv3扩展到了70亿参数规模，充分展示了自监督学习（SSL）的潜力，但这样的大模型对于很多实际应用来说并不现实。

因此，Meta构建了一个模型家族，覆盖从轻量级到高性能的不同计算需求，以满足各类研究和开发场景。

通过将ViT-7B蒸馏成更小但性能优越的版本（如ViT-B和ViT-L），DINOv3在多个评估任务中均超越了同类的CLIP模型。

此外，他们还推出了一系列基于ViT-7B蒸馏的ConvNeXt架构（T、S、B、L），适用于不同计算资源限制下的部署需求。

吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

同时，他们也开放了完整的蒸馏流程，便于社区在此基础上继续拓展。

参考资料：

https://ai.meta.com/blog/dinov3-self-supervised-vision-model/

https://ai.meta.com/dinov3/

https://ai.meta.com/blog/nasa-jpl-dino-robot-explorers/

https://ai.meta.com/research/publications/dinov3/

文章来自于微信公众号“新智元”。

关键词: AI新闻 , DINOv3 , Meta , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner