快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了
快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了本研究由快手科技语言大模型团队完成,核心作者吕民轩、梅铁桦、杜坦隆等。快手科技与中国科学院大学联合提出 GoLongRL,一套完全开源的长上下文强化学习后训练方案,包含 23K 样本 RLVR 数据集
来自主题: AI技术研报
7230 点击 2026-06-20 10:21
搜索
本研究由快手科技语言大模型团队完成,核心作者吕民轩、梅铁桦、杜坦隆等。快手科技与中国科学院大学联合提出 GoLongRL,一套完全开源的长上下文强化学习后训练方案,包含 23K 样本 RLVR 数据集