什么都不做就能得分?智能体基准测试出现大问题 什么都不做就能得分?智能体基准测试出现大问题 关键词: AI,模型训练,智能体评测,智能体基准 都在研究考生,考卷出问题了。 来自主题: AI技术研报 5713 点击 2025-07-15 15:36
首个面向科学任务、真实交互、自动评估的多模态智能体评测环境,ScienceBoard来了 首个面向科学任务、真实交互、自动评估的多模态智能体评测环境,ScienceBoard来了 关键词: AI,模型训练,ScienceBoard,人工智能 第一作者孙秋实是香港大学计算与数据科学学院博士生,硕士毕业于新加坡国立大学数据科学系。 来自主题: AI技术研报 8225 点击 2025-06-26 15:43