LeCun力荐的JEPA杀入LLM，用CV的思路训练LLM，性能鲁棒性双丰收

7440点击 2025-09-23 10:12

LeCun 这次不是批评 LLM，而是亲自改造。

当前 LLM 的训练（包括预训练、微调和评估）主要依赖于在「输入空间」进行重构与生成，例如预测下一个词。

而在 CV 领域，基于「嵌入空间」的训练目标，如联合嵌入预测架构（JEPA），已被证明远优于在输入空间操作的同类方法。

LeCun力荐的JEPA杀入LLM，用CV的思路训练LLM，性能鲁棒性双丰收

JEPA 的核心概念最早由 Yann LeCun 及其团队提出，旨在通过在抽象表征空间中预测未来或缺失的特征来高效学习世界知识。随后，Meta AI 团队提出了具体实现，包括 I-JEPA（用于图像、自监督学习、CVPR 2023）和 V-JEPA（用于视频），验证了 JEPA 在视觉表征学习中的有效性。

这就启发了一个新思路：语言模型的训练，能否从视觉领域获得一些启发？

此前，由于设计上的挑战，适用于语言任务的 JEPA 风格模型一直未能出现。主要原因是 LLM 的能力主要通过其生成文本来评判，这是一种输入空间的操作，使得非重构的 JEPA 思想难以直接应用。

为填补这一空白，Hai Huang、Yann LeCun 及 Randall Balestriero 提出了 LLM-JEPA。这项工作基于 JEPA 理念，首次将这种高效的自监督学习架构成功地从视觉领域扩展到了 LLM。

该工作通过将（文本、代码）等数据对视为同一概念的多种视图，成功地将 JEPA 目标应用于 LLM，作为标准「文本→代码」等生成任务的有效补充。这既保留了 LLM 强大的生成能力，又引入了 JEPA 在嵌入空间学习高质量表征的优势。

LeCun力荐的JEPA杀入LLM，用CV的思路训练LLM，性能鲁棒性双丰收

论文标题： LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures
论文地址：https://arxiv.org/pdf/2509.14252v1
代码：https://github.com/rbalestr-lab/llm-jepa

实验证明，LLM-JEPA 的性能显著超越了标准的 LLM 训练目标。该方法不仅表现出色，还对过拟合问题显示出强大的鲁棒性。

这些结论在 Llama3、OpenELM、Gemma2、Olmo 等多个主流模型系列以及 NL-RX、GSM8K、Spider、Rotten Tomatoes 等多样化的数据集上均得到了有力验证。

JEPA-LLM：提升 LLM 的推理与生成能力

LLM 简介

当代 LLM 的构建大多遵循着相同的核心原则：即通过堆叠大量的非线性运算层与跳跃连接（即 Transformer 架构）来搭建。

尽管各模型在细节上，如位置嵌入、初始化方法或归一化层上可能有所不同，但其性能表现的主要驱动力，依旧是预训练阶段所使用的高质量数据集。在训练目标上，现有方法也基本趋于统一，即自回归 token 空间重构。

LeCun力荐的JEPA杀入LLM，用CV的思路训练LLM，性能鲁棒性双丰收

其中，λ≥0 是一个用于平衡两项损失权重的超参数；Pred 和 Enc 分别代表预测器和编码器网络；d 则是一个可选择的度量函数，例如 ℓ2 距离。下面将对各个组件进行详细说明。

编码器： 编码器的实现方式沿用了 LLM 探查中的常见做法，即取模型最后一层最后一个 token 的 hidden_state 作为输入序列的嵌入向量。在实践中，研究团队指出，无法通过单次前向传播同时产出 Enc(Text) 和 Enc(Code)。一种看似高效的做法是将 [Text,Code] 拼接后输入，但这需要修改自注意力机制以避免跨视角信息泄露，从而导致方案与特定 LLM 架构绑定。为此，研究团队提出通过两次独立的前向传播来分别获取 Text 和 Code 的编码。这种方式虽然增加了训练成本，但并不影响推理效率。

度量：在嵌入向量的比较方面，CV 领域已广泛采用余弦相似度。因此，该研究建议在 LLM-JEPA 中也采用相同的度量方式。

LeCun力荐的JEPA杀入LLM，用CV的思路训练LLM，性能鲁棒性双丰收

研究团队在多个主流预训练 LLM（包括 Llama-3.2-1B-Instruct、gemma-2-2b-it 等）及多种数据集（如 NL-RX-SYNTH、GSM8K 等）上展开了全面的微调实验。

实验流程是，首先为每个（模型、数据集）组合搜索出最优学习率，然后在此基础上，通过网格搜索确定 LLM-JEPA 的两个关键超参数 k 和 λ 的最佳组合。评估指标根据任务特性而定，例如在 NL-RX 数据集上采用精确匹配准确率。

实验结果（图 1 左）清晰地表明，LLM-JEPA 能够在不同模型、不同数据集、不同训练时长和不同模型尺寸下全面提升性能。

LeCun力荐的JEPA杀入LLM，用CV的思路训练LLM，性能鲁棒性双丰收

如表 3 所示，即使在不同的 LoRA 秩配置下，LLM-JEPA 的性能优势依然稳固。

LeCun力荐的JEPA杀入LLM，用CV的思路训练LLM，性能鲁棒性双丰收

此外，研究还提供了证据（图 6、7、10），证明 LLM-JEPA 能够学习到从 Text 编码到 Code 编码之间的一个近似线性变换。

LeCun力荐的JEPA杀入LLM，用CV的思路训练LLM，性能鲁棒性双丰收

LLM-JEPA 同样能改进预训练过程

为了验证其在预训练阶段的有效性，研究团队在一个数据集上从零开始训练 Llama-3.2-1B-Instruct。结果如表 1 所示，采用 LLM-JEPA 的模型在学习表示的质量上显著优于传统方法。

LeCun力荐的JEPA杀入LLM，用CV的思路训练LLM，性能鲁棒性双丰收

在另一项对释义数据集的预训练实验中，使用 JEPA 预训练过的模型，在下游情感分类任务上进行微调时，也表现出更强的性能（表 4）。这证明了 JEPA 在预训练阶段带来的益处可以迁移到下游任务。

LeCun力荐的JEPA杀入LLM，用CV的思路训练LLM，性能鲁棒性双丰收

最后，表 2 的生成样本表明，经过 JEPA 预训练后，模型在遵循提示进行文本生成时，其原有的生成能力并未受到损害。

LeCun力荐的JEPA杀入LLM，用CV的思路训练LLM，性能鲁棒性双丰收

研究团队表示，尽管当前实验主要聚焦于微调阶段，但初步的预训练结果同样展现了巨大潜力，研究团队计划在未来工作中对其进行更大规模、更全面的测试。

关于该方法的局限性，当前最主要的瓶颈是训练过程中为获取多视角表示而导致的三倍计算开销。

未来，研究团队计划探索通过掩码自注意力矩阵等方式，实现在单次前向传播中完成 LLM-JEPA 损失的计算，以降低训练成本。

不过也有人指出，该方法因严重依赖「配对数据」而导致其泛化性不足，再加上高昂的训练成本，使其缺乏实际应用价值。

LeCun力荐的JEPA杀入LLM，用CV的思路训练LLM，性能鲁棒性双丰收

对此你怎么看？

更多细节请参见原论文。

文章来自于微信公众号 “机器之心”，作者 “机器之心”

关键词: 模型训练 , LeCun , JEPA , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner