摘要
本申请实施例提供一种模型评测方法、装置、存储介质及计算机设备,包括:获取模型评测配置文件,其中涵盖测评数据集、待评测模型、示例索引方式、数据调度方式及评测算法。先把测评数据集拆分为示例集样本与测试集样本,对测试集样本的问题和选项做拼接,生成拼接数据。针对每个拼接数据里的问题,按示例索引方式从示例集样本检索对应示例,组成提示词,再将拼接数据与提示词拼接,得到评测输入数据。把这些数据输入待评测模型,根据数据调度方式推理得结果。最后依据每个数据对应的答案、推理结果和评测算法,判定模型评测结果,提升评测自定义灵活度,提高对模型评测时的自定义灵活度。