一种针对中文大语言模型毒性和偏见的评估方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种针对中文大语言模型毒性和偏见的评估方法
申请号:CN202510054379
申请日期:2025-01-14
公开号:CN119961728A
公开日期:2025-05-09
类型:发明专利
摘要
本发明公开了一种针对中文大语言模型毒性和偏见的评估方法,包括:获取中文毒性语言数据集;采用中文毒性API进行判断毒性和偏见;确定评估模型的指标,其中,所述指标包括:毒性,偏见和回避率;利用所述中文毒性语言数据集对中文大语言模型进行毒性,偏见和回避程度的评估,从而获取评估结果。该方法提出了一个与测评数据集和模型无关通用评估框架TisEval,可应用于广泛的数据集和模型,该框架来评估大语言模型的毒性和偏见,是首个从毒性和偏见的角度对中文大语言模型进行了全面、系统的研究评估。
技术关键词
大语言模型 数据 指标 语句 众包方法 关键字 框架 比率 标签