基于语义熵的数据集一致性自动化评估手段

申请号：CN202510409836

申请日期：2025-04-02

公开号：CN120257998A

公开日期：2025-07-04

类型：发明专利

摘要

本发明涉及自然语言处理数据集评估领域，针对具体任务选取相关的待评测数据集，对其进行格式化预处理，将其转换为统一格式的文本数据样本，再进行特征化处理，即采用大型语言模型用生成模型获取数据集样本的生成概率和语义嵌入向量，基于此来构建数据集的语义中心点和样本的语义距离，通过信息论知识计算数据集语义熵，从而反映其语义聚合度和与当前任务的语义贴合程度，自动化地评估数据集一致性，减少人工评估带来的偏差，大幅提高评估效率和准确度。

技术关键词

数据样本格式化语义层面文本大语言模型字段语义向量标签自然语言标记主题计算方法答案摘要字符偏差组织