AI资讯新闻榜单内容搜索-模型

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

DeepSeek-R1 的成功离不开一种强化学习算法：GRPO（组相对策略优化）。

来自主题: AI技术研报

5809 点击 2025-04-01 16:16

ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE：探究下游任务中多样化对齐MoE的表征和知识

最近，全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果：由 IDEA、清华大学、北京大学、香港科技大学（广州）联合团队提出的 ChartMoE 成功入选 Oral (口头报告) 论文。据了解，本届大会共收到 11672 篇论文，被选中做 Oral Presentation（口头报告）的比例约为 1.8%

来自主题: AI技术研报

3631 点击 2025-04-01 15:27

实测国内外大模型数学能力：YiXin-Distill-Qwen-72B登顶，半数大厂模型不及格？

数学题，一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可。最近，我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”，用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。

来自主题: AI产品测评

8145 点击 2025-04-01 14:25

这篇综述，LLM代理的方法、应用和挑战，2025的Agent势头特别猛。| 重磅

2025年，人工智能领域正在经历一场由LLM Agent引发的深刻变革，不管普通人的衣食住行还是研究者的尖端研究，都很难不受Agent的影响。

来自主题: AI技术研报

8238 点击 2025-04-01 10:06

OpenAI重新开源！第一弹就推理模型，还不限制商用，“冲着DeepSeek来的”

一夜之间，OpenAI更新三大动向，开源、融资、用户暴增。第一，将开源一个具备推理能力的大语言模型，包含参数权重那种。上一次这样开源还是6年前推出GPT-2。

来自主题: AI资讯

7972 点击 2025-04-01 09:15

一秒十图！英伟达MIT联手刷新SOTA，一步扩散解锁实时高质量可控图像生成

SANA-Sprint是一个高效的蒸馏扩散模型，专为超快速文本到图像生成而设计。通过结合连续时间一致性蒸馏（sCM）和潜空间对抗蒸馏（LADD）的混合蒸馏策略，SANA-Sprint在一步内实现了7.59 FID和0.74 GenEval的最先进性能。SANA-Sprint仅需0.1秒即可在H100上生成高质量的1024x1024图像，在速度和质量的权衡方面树立了新的标杆。

来自主题: AI技术研报

8043 点击 2025-03-31 16:16

清华朱军团队 | 从点云到高保真三维网格：DeepMesh突破自回归生成瓶颈

在三维数字内容生产领域，三角形网格作为核心的几何表示形式，其质量直接影响虚拟资产在影视、游戏和工业设计等应用场景中的表现与效率。

来自主题: AI技术研报

4503 点击 2025-03-31 15:31

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

在视觉强化学习中，许多方法未考虑序列决策过程，导致所学表征缺乏关键的长期信息的空缺被填补上了。

来自主题: AI技术研报

2473 点击 2025-03-31 15:16

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型（LRM，Large Reasoning Model）带来了新的 post-training scaling law，强化学习（RL，Reinforcement Learning）成为了大语言模型能力提升的新引擎。然而，针对大语言模型的大规模强化学习训练门槛一直很高：

来自主题: AI技术研报

9074 点击 2025-03-31 15:07

被LangChain折磨够了吗？试下100行代码打造的LLM有向图框架PocketFlow | 独家最新

你是否曾对着一个繁复的AI框架，无奈地想："真有必要搞得这么复杂吗？"在与臃肿框架斗争一年后，Zachary Huang博士决定大刀阔斧地革新，剔除所有花里胡哨的部分。于是Pocket Flow诞生了——一个仅有100行代码的超轻量级大语言模型框架！

来自主题: AI技术研报

8174 点击 2025-03-31 09:48