AI资讯新闻榜单内容搜索-SFT

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: SFT

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

刚刚，不发论文、爱发博客的 Thinking Machines Lab （以下简称 TML）再次更新，发布了一篇题为《在策略蒸馏》的博客。在策略蒸馏（on-policy distillation）是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时，TML 发现在策略蒸馏可以极低的成本超越其他方法。

来自主题: AI技术研报

7444 点击 2025-10-28 10:50

大模型微调范式认知再被颠覆？UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解

大模型微调范式认知再被颠覆？UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解

大模型微调范式认知再被颠覆？UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解

在大模型微调实践中，SFT（监督微调）几乎成为主流流程的一部分，被广泛应用于各类下游任务和专用场景。比如，在医疗领域，研究人员往往会用领域专属数据对大模型进行微调，从而显著提升模型在该领域特定任务上的表现。

来自主题: AI技术研报

7070 点击 2025-10-24 10:13

RL 将如何提高具身大模型 VLA 泛化性？清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

RL 将如何提高具身大模型 VLA 泛化性？清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

RL 将如何提高具身大模型 VLA 泛化性？清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化

来自主题: AI技术研报

8188 点击 2025-10-13 10:28

听说，大家都在梭后训练？最佳指南来了

听说，大家都在梭后训练？最佳指南来了

听说，大家都在梭后训练？最佳指南来了

既然后训练这么重要，那么作为初学者，应该掌握哪些知识？大家不妨看看这篇博客《Post-training 101》，可以很好的入门 LLM 后训练相关知识。从对下一个 token 预测过渡到指令跟随；监督微调（SFT）基本原理，包括数据集构建与损失函数设计；

来自主题: AI技术研报

6467 点击 2025-10-12 14:59

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

监督微调（SFT）和强化学习（RL）微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展，但是在文本分类场景，强化学习未取得较大的进展，其表现往往不如监督学习。

来自主题: AI技术研报

7018 点击 2025-09-23 14:59

多模态后训练反常识：长思维链SFT和RL的协同困境

多模态后训练反常识：长思维链SFT和RL的协同困境

多模态后训练反常识：长思维链SFT和RL的协同困境

在语言模型领域，长思维链监督微调（Long-CoT SFT）与强化学习（RL）的组合堪称黄金搭档 —— 先让模型学习思考模式，再用奖励机制优化输出，性能通常能实现叠加提升。

来自主题: AI技术研报

7352 点击 2025-08-02 12:49

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

新一代大型推理模型，如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5，在复杂推理方面取得了显著进展。该方向核心是一种名为 ZERO-RL 的训练方法，即采用可验证奖励强化学习（RLVR）逐步提升大模型在强推理场景 (math, coding) 的 pass@1 能力。

来自主题: AI技术研报

6683 点击 2025-07-28 10:36

美团提出多模态推理新范式：RL+SFT非传统顺序组合突破传统训练瓶颈

美团提出多模态推理新范式：RL+SFT非传统顺序组合突破传统训练瓶颈

美团提出多模态推理新范式：RL+SFT非传统顺序组合突破传统训练瓶颈

多模态推理，也可以讲究“因材施教”？

来自主题: AI技术研报

7154 点击 2025-07-21 15:53

任务级奖励提升App Agent思考力，淘天提出Mobile-R1，3B模型可超32B

任务级奖励提升App Agent思考力，淘天提出Mobile-R1，3B模型可超32B

任务级奖励提升App Agent思考力，淘天提出Mobile-R1，3B模型可超32B

现有Mobile/APP Agent的工作可以适应实时环境，并执行动作，但由于它们大部分都仅依赖于动作级奖励（SFT或RL）。

来自主题: AI技术研报

10731 点击 2025-07-21 12:25

SFT+RL双管齐下：ReasonGen-R1如何破解文生图「指令不遵」难题？

SFT+RL双管齐下：ReasonGen-R1如何破解文生图「指令不遵」难题？

SFT+RL双管齐下：ReasonGen-R1如何破解文生图「指令不遵」难题？

近年来，链式推理和强化学习已经被广泛应用于大语言模型，让大语言模型的推理能力得到了显著提升。

来自主题: AI技术研报

6910 点击 2025-06-17 10:15

上一页当前第1页,共3页下一页