大模型数据筛选方法、设备和存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
大模型数据筛选方法、设备和存储介质
申请号:CN202510315007
申请日期:2025-03-18
公开号:CN119848257A
公开日期:2025-04-18
类型:发明专利
摘要
本发明涉及模型数据处理领域,公开了一种大模型数据筛选方法、设备和存储介质,该方法包括:获取各待筛选数据,针对每条待筛选数据,确定至少一个对应的质量评估指标,并根据各待筛选数据的各质量评估指标,确定各第一过滤数据;将各第一过滤数据输入至预先确定的专业性评估大语言模型中,确定各第一过滤数据对应的专业评估指标,并根据各第一过滤数据的专业评估指标,确定各第二过滤数据;对各第二过滤数据进行聚类分析,确定类别数据标准差,并根据所述类别数据标准差,对各第二过滤数据进行均衡处理,得到用于大模型微调的专业数据。通过本发明的技术方案,实现了为模型微调提供高质量的数据的效果,显著提升了数据处理效率。
技术关键词
数据筛选方法 指标 专业 大语言模型 指令 可读存储介质 矩阵 电子设备 计算机 核心 语义 程序 存储器 处理器 元素