摘要
本申请公开了大模型的模型能力分类评估方法、装置、设备及介质,涉及人工智能技术领域,包括:确定待评估大模型的任务评估类型,基于子能力评估项和具体测试场景生成的对应测试任务数据,并对测试任务数据进行前置格式化处理,以得到格式化处理后的目标测试任务数据;将目标测试任务数据输入至待评估大模型,调用模型参数加载功能,以便待评估大模型加载相应的模型参数后对目标测试任务数据进行任务处理,得到测试结果指标;对测试结果指标执行人工评估,得到相应的模型能力评估结果,以利用模型能力评估结果优化待评估大模型。实现不同场景不同测试任务下的大模型的模型能力准确评估。