摘要
本申请提供了一种情感陪伴大模型的评测方法及相关装置,可获取至少两组对话文本集,任意两组对话文本集所对应的情感对话场景不同,每组对话文本集均包括针对同一情感对话场景的至少两个人工对话文本。其中,人工对话文本是人类用户与情感陪伴大模型针对特定情感对话场景的对话文本,且对话轮数大于或等于20。因此,各组对话文本集可充分展现出情感陪伴大模型在情感满足度方面的表现。本申请可根据预设的情感满足度评测维度和评测标准信息,采用评测大语言模型分别对每个人工对话文本的情感满足度进行评分,并据此评估情感陪伴大模型的情感智能化程度。如此,可精准确定情感陪伴大模型的情感智能化程度,为模型迭代优化和尤其应用选择提供依据。