AI资讯新闻榜单内容搜索-后训练方案

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 后训练方案
快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

本研究由快手科技语言大模型团队完成,核心作者吕民轩、梅铁桦、杜坦隆等。快手科技与中国科学院大学联合提出 GoLongRL,一套完全开源的长上下文强化学习后训练方案,包含 23K 样本 RLVR 数据集

来自主题: AI技术研报
7231 点击    2026-06-20 10:21