摘要
本申请一个或多个实施例提供一种大语言模型的评测方法、装置、设备和存储介质,该方法包括:获取样本集合;样本集合中的各个样本包括查询文本,以及与查询文本对应的生成答案文本和标准答案文本;生成答案文本为由第一大语言模型基于查询文本进行推理而生成的答案文本;基于样本集合中的各个样本生成提示文本,并将提示文本输入至少一个第二大语言模型,以由各个第二大语言模型在提示文本的引导下,根据提示文本中的评估规则,以及样本中的查询文本和标准答案文本,对样本中的生成答案文本进行正确性评估,并生成与样本对应的模型评估结果;基于与样本集合中的各个样本对应的模型评估结果,确定第一大语言模型的模型效果。