一种针对中文大语言模型毒性和偏见的评估方法

申请号：CN202510054379

申请日期：2025-01-14

公开号：CN119961728A

公开日期：2025-05-09

类型：发明专利

摘要

本发明公开了一种针对中文大语言模型毒性和偏见的评估方法，包括：获取中文毒性语言数据集；采用中文毒性API进行判断毒性和偏见；确定评估模型的指标，其中，所述指标包括：毒性，偏见和回避率；利用所述中文毒性语言数据集对中文大语言模型进行毒性,偏见和回避程度的评估，从而获取评估结果。该方法提出了一个与测评数据集和模型无关通用评估框架TisEval，可应用于广泛的数据集和模型，该框架来评估大语言模型的毒性和偏见，是首个从毒性和偏见的角度对中文大语言模型进行了全面、系统的研究评估。

技术关键词

大语言模型数据指标语句众包方法关键字框架比率标签