AI资讯新闻榜单内容搜索-QuestA

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: QuestA

1.5B推理模型新SOTA，RL训练新解法打破「简单题过拟合、难题学不动」的魔咒

1.5B推理模型新SOTA，RL训练新解法打破「简单题过拟合、难题学不动」的魔咒

1.5B推理模型新SOTA，RL训练新解法打破「简单题过拟合、难题学不动」的魔咒

QuestA（问题增强）引入了一种方法，用于提升强化学习中的推理能力。通过在训练过程中注入部分解题提示，QuestA 实现两项重大成果

来自主题: AI技术研报

9282 点击 2025-10-06 13:54

上一页当前第1页,共1页下一页