摘要
本申请公开了一种金融文本大模型性能评估方法及装置。该方案中,将目标评估样本库中的评估样本输入至目标模型,获取目标模型的输出结果及运行时性能数据。基于运行时性能数据对目标模型生成推理性能得分。基于输出结果对目标模型进行基础语义质量评估和领域专业性评估生成业务质量得分。根据目标模型的应用业务场景类型,为推理性能得分和业务质量得分分配权重比例。基于权重比例生成目标模型的性能总分。本申请技术方案针对金融领域的特殊需求,从包括领域专业性等多个维度对模型进行评估,全面反映金融文本大模型的性能。根据业务场景类型动态调整权重,使得评估结果更贴合实际业务需求。实现了对金融文本大模型性能的全面、精准评估。