基于语义熵的数据集一致性自动化评估手段
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
基于语义熵的数据集一致性自动化评估手段
申请号:
CN202510409836
申请日期:
2025-04-02
公开号:
CN120257998A
公开日期:
2025-07-04
类型:
发明专利
摘要
本发明涉及自然语言处理数据集评估领域,针对具体任务选取相关的待评测数据集,对其进行格式化预处理,将其转换为统一格式的文本数据样本,再进行特征化处理,即采用大型语言模型用生成模型获取数据集样本的生成概率和语义嵌入向量,基于此来构建数据集的语义中心点和样本的语义距离,通过信息论知识计算数据集语义熵,从而反映其语义聚合度和与当前任务的语义贴合程度,自动化地评估数据集一致性,减少人工评估带来的偏差,大幅提高评估效率和准确度。
技术关键词
数据
样本
格式化
语义层面
文本
大语言模型
字段
语义向量
标签
自然语言
标记
主题
计算方法
答案
摘要
字符
偏差
组织