基于语义熵的数据集一致性自动化评估手段

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于语义熵的数据集一致性自动化评估手段
申请号:CN202510409836
申请日期:2025-04-02
公开号:CN120257998A
公开日期:2025-07-04
类型:发明专利
摘要
本发明涉及自然语言处理数据集评估领域,针对具体任务选取相关的待评测数据集,对其进行格式化预处理,将其转换为统一格式的文本数据样本,再进行特征化处理,即采用大型语言模型用生成模型获取数据集样本的生成概率和语义嵌入向量,基于此来构建数据集的语义中心点和样本的语义距离,通过信息论知识计算数据集语义熵,从而反映其语义聚合度和与当前任务的语义贴合程度,自动化地评估数据集一致性,减少人工评估带来的偏差,大幅提高评估效率和准确度。
技术关键词
数据 样本 格式化 语义层面 文本 大语言模型 字段 语义向量 标签 自然语言 标记 主题 计算方法 答案 摘要 字符 偏差 组织