面向大模型预训练和RAG技术的语料批量标注方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
面向大模型预训练和RAG技术的语料批量标注方法及系统
申请号:CN202511218714
申请日期:2025-08-28
公开号:CN121030489A
公开日期:2025-11-28
类型:发明专利
摘要
本发明提供了面向大模型预训练和RAG技术的语料批量标注方法及系统,涉及自然语言处理技术领域,该方法包括:对输入的原始异构文档进行解析,识别并提取其中的文本、表格及图像元素,最终输出统一的结构化文档;对结构化文档进行预处理;利用大语言模型LLM将用户的标注意图自动转化为可执行的标注脚本,并利用标注脚本对干净语料进行批量标注,生成已标注数据集;基于大语言模型LLM对已标注数据集进行质量评估,并综合分析其标签分布和语义分布,以多目标优化策略动态调度数据增强方式,生成质量与分布均优化的最终数据集。此方法通过构造一个全新的、智能化的自动化流水线,在整体上实现了效率提升、质量优化和灵活性增强的三重有益效果。
技术关键词
模型预训练 标注方法 批量 大语言模型 语义 SimHash算法 自然语言 表格 数据 标注系统 脚本 重构单元 汉明距离 标签 文本分类模型 自动化流水线 策略 可调阈值 噪声分类 指纹