Rubrics综述:Agent时代,如何定义一个「好答案」?
Rubrics综述:Agent时代,如何定义一个「好答案」?近年来,随着大模型从简单问答,走向深度研究、医疗咨询、多模态生成和长程 Agent 任务,一个基础问题变得越来越难回答:我们到底应该怎样判断模型输出的质量?
来自主题: AI技术研报
8295 点击 2026-06-01 09:24
搜索
近年来,随着大模型从简单问答,走向深度研究、医疗咨询、多模态生成和长程 Agent 任务,一个基础问题变得越来越难回答:我们到底应该怎样判断模型输出的质量?