
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电
在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电DeepSeek-R1 的成功离不开一种强化学习算法:GRPO(组相对策略优化)。
来自主题: AI技术研报
5862 点击 2025-04-01 16:16
DeepSeek-R1 的成功离不开一种强化学习算法:GRPO(组相对策略优化)。
在人工智能领域,具有挑战性的模拟环境对于推动多智能体强化学习(MARL)领域的发展至关重要。在合作式多智能体强化学习环境中,大多数算法均通过星际争霸多智能体挑战(SMAC)作为实验环境来验证算法的收敛和样本利用率。
分布式强化学习是一个综合的研究子领域,需要深度强化学习算法以及分布式系统设计的互相感知和协同。考虑到 DDRL 的巨大进步,我们梳理形成了 DDRL 技术的展历程、挑战和机遇的系列文章。
SPF算法是一种基于状态序列频域预测的表征学习方法,利用状态序列的频域分布来显式提取状态序列数据中的趋势性和规律性信息,从而辅助表征高效地提取到长期未来信息。
来自清华大学的研究团队提出了一个深度强化学习算法的模型。基于 15 分钟城市概念,该模型可以进行复杂的城市空间规划。
近日,复旦大学附属中山医院内分泌科李小英、陈颖团队联合北京邮电大学王光宇教授团队首次提出采用基于强化学习算法的AI系统“RL-DITR”制定胰岛素决策策略。