大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。
来自主题: AI技术研报
9886 点击 2025-04-03 09:58
一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。
首次将DeepSeek同款RLVR应用于全模态LLM,含视频的那种!
只需几十个样本即可训练专家模型,强化微调RLF能掀起强化学习热潮吗?具体技术实现尚不清楚,AI2此前开源的RLVR或许在技术思路上存在相似之处。