摘要
本发明公开了一种评测方法、装置、电子设备和存储介质,该方法为:获取基于视频数据生成的评测数据集,其中,评测数据集至少包括视频数据对应的预设问题数据;将评测数据集输入到待评测大语言模型中,得到待评测大语言模型针对预设问题数据的预测回答数据以及推理过程数据;基于预设问题数据的参考答案数据对预测回答数据进行结果级评测,以及,基于预设问题数据的标准推理数据对推理过程数据进行过程级评测;基于结果级评测的第一评测结果以及过程级评测的第二评测结果生成待评测大语言模型的综合评测结果。本发明通过结合结果级评测和过程级评测,形成双维度评估框架,有效克服了现有评测方法仅聚焦于结果评测的缺陷,提高了评测方法的全面性。