RL新思路!复旦用游戏增强VLM通用推理,性能匹敌几何数据 RL新思路!复旦用游戏增强VLM通用推理,性能匹敌几何数据 关键词: Game-RL,模型训练,GameQA,数据集 复旦大学NLP实验室研发Game-RL,利用游戏丰富视觉元素和明确规则生成多模态可验证推理数据,通过强化训练提升视觉语言模型的推理能力。创新性地提出Code2Logic方法,系统化合成游戏任务数据,构建GameQA数据集,验证了游戏数据在复杂推理训练中的优势。 来自主题: AI技术研报 8110 点击 2025-10-21 10:05