AI资讯新闻榜单内容搜索-模型蒸馏

只要强化学习1/10成本！翁荔的Thinking Machines盯上了Qwen的黑科技

今天要讲的On-Policy Distillation（同策略/在线策略蒸馏）。这是一个Thinking Machines整的新活，这个新策略既有强化学习等在线策略方法的相关性和可靠性；又具备离线策略（Off-policy）方法的数据效率。

来自主题: AI资讯

8190 点击 2025-10-29 11:12

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

刚刚，不发论文、爱发博客的 Thinking Machines Lab （以下简称 TML）再次更新，发布了一篇题为《在策略蒸馏》的博客。在策略蒸馏（on-policy distillation）是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时，TML 发现在策略蒸馏可以极低的成本超越其他方法。

来自主题: AI技术研报

7441 点击 2025-10-28 10:50

1.58bit不输FP16！微软推出全新模型蒸馏框架，作者全是华人

1.58bit量化，内存仅需1/10，但表现不输FP16？微软最新推出的蒸馏框架BitNet Distillation（简称BitDistill），实现了几乎无性能损失的模型量化。

来自主题: AI技术研报

5677 点击 2025-10-20 14:35

Qwen3家族训练秘籍公开：思考/非思考融进一个模型，大模型蒸馏带动小模型

Qwen3技术报告新鲜出炉，8款模型背后的关键技术被揭晓！

来自主题: AI技术研报

7019 点击 2025-05-14 15:26

中科院北大等揭示「蒸馏真相」：除Claude豆包Gemini，其他很多模型都「蒸」过头

模型蒸馏也有「度」，过度蒸馏，只会导致模型性能下降。最近，来自中科院、北大等多家机构提出全新框架，从两个关键要素去评估和量化蒸馏模型的影响。结果发现，除了豆包、Claude、Gemini之外，大部分开/闭源LLM蒸馏程度过高。

来自主题: AI技术研报

5247 点击 2025-01-21 22:30

GPT-5、 Opus 3.5为何迟迟不发？新猜想：已诞生，被蒸馏成小模型来卖

最近几个月，从各路媒体、AI 社区到广大网民都在关注 OpenAI 下一代大模型「GPT-5」的进展。

来自主题: AI资讯

8740 点击 2025-01-18 10:51

模型知识蒸馏新SOTA！告别传统散度蒸馏｜腾讯优图&中科大出品

用大模型“蒸馏”小模型，有新招了！

来自主题: AI技术研报

7474 点击 2024-12-04 09:34

深度｜OpenAI Dev Day 2024访谈Sam Altman：AGI共5层，我们现在在第2层

实时API将完全改变我们与人工智能互动的方式，定制化AI模型成为主流，并且通过模型蒸馏实现低延迟、低成本、高性能，使AI更易使用、更高质量。

来自主题: AI资讯

10767 点击 2024-11-03 18:17

OpenAI大礼包：实时语音、模型蒸馏都上了，要卖最好的货赚最多的钱

今天，OpenAI 2024年首场DevDay在旧金山2号码头的Gateway Pavilion低调举办。

来自主题: AI资讯

9518 点击 2024-10-02 11:40

LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

Emory大学的研究团队提出了一种创新的方法，将大语言模型（LLM）在文本图（Text-Attributed Graph, 缩写为TAG）学习中的强大能力蒸馏到本地模型中，以应对文本图学习中的数据稀缺、隐私保护和成本问题。通过训练一个解释器模型来理解LLM的推理过程，并对学生模型进行对齐优化，在多个数据集上实现了显著的性能提升，平均提高了6.2%。

来自主题: AI技术研报

11132 点击 2024-08-23 16:35