AI资讯新闻榜单内容搜索-后训练方案

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 后训练方案

快手开源GoLongRL：23K样本、9大任务类型，长上下文RL荒的时代结束了

本研究由快手科技语言大模型团队完成，核心作者吕民轩、梅铁桦、杜坦隆等。快手科技与中国科学院大学联合提出 GoLongRL，一套完全开源的长上下文强化学习后训练方案，包含 23K 样本 RLVR 数据集

来自主题: AI技术研报

7231 点击 2026-06-20 10:21