AI资讯新闻榜单内容搜索-蒸馏

5%参数比肩DeepSeek满血R1！北大“小”模型靠分合蒸馏，打破推理成本下限

只用5%的参数，数学和代码能力竟然超越满血DeepSeek？

来自主题: AI资讯

9968 点击 2025-05-27 12:45

何恺明团队又一力作！这次他们带来的是「生成模型界的降维打击」——MeanFlow：无需预训练、无需蒸馏、不搞课程学习，仅一步函数评估（1-NFE），就能碾压以往的扩散与流模型！

来自主题: AI技术研报

7605 点击 2025-05-21 14:50

Qwen3技术报告新鲜出炉，8款模型背后的关键技术被揭晓！

来自主题: AI技术研报

8536 点击 2025-05-14 15:26

近年来，「思维链（Chain of Thought，CoT）」成为大模型推理的显学，但要让小模型也拥有长链推理能力却非易事。

来自主题: AI技术研报

9317 点击 2025-05-04 17:08

自从DeepSeek带火了蒸馏模型以后，更多人开始关注AI大模型在边缘端的部署。而在过去，TinyML一直也在MCU领域很火热。现在，边缘AI走得更快了，市场也正在走向爆发。

来自主题: AI资讯

9592 点击 2025-04-30 08:25

通过蒙特卡洛树搜索筛选高难度样本，ThinkLite-VL仅用少量数据就能显著提升视觉语言模型的推理能力，无需知识蒸馏，为高效训练提供了新思路。

来自主题: AI技术研报

9721 点击 2025-04-28 16:59

一项来自清华大学和上海交通大学的研究颠覆了对可验证奖励强化学习（RLVR）的认知。RLVR被认为是打造自我进化大模型的关键，但实验表明，它可能只是提高了采样效率，而非真正赋予模型全新推理能力。

来自主题: AI技术研报

8604 点击 2025-04-28 16:51

通过蒙特卡洛树搜索筛选高难度样本，ThinkLite-VL仅用少量数据就能显著提升视觉语言模型的推理能力，无需知识蒸馏，为高效训练提供了新思路。

来自主题: AI技术研报

9641 点击 2025-04-24 14:38

4 月 14 日，谷歌首席科学家 Jeff Dean 在苏黎世联邦理工学院举办的信息学研讨会上发表了一场演讲，主题为「AI 的重要趋势：我们是如何走到今天的，我们现在能做什么，以及我们如何塑造 AI 的未来？」

来自主题: AI技术研报

9085 点击 2025-04-18 14:40

两个月后就号称要淘汰GPT-4.5的GPT-4.1，实力究竟如何？在众多实测中，它的表现的确可圈可点，但却依然打不过Gemini 2.5 Pro和Claude 3.7 Sonnet。那么问题来了，OpenAI为何要发布一个远远落后于谷歌的模型？

来自主题: AI资讯

10680 点击 2025-04-16 10:26