模型微调数据集生成方法、装置、设备、介质及程序产品

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
模型微调数据集生成方法、装置、设备、介质及程序产品
申请号:CN202411914425
申请日期:2024-12-24
公开号:CN119849493A
公开日期:2025-04-18
类型:发明专利
摘要
本发明涉及自然语言处理技术领域,公开了一种模型微调数据集生成方法、装置、设备、介质及程序产品,模型微调数据集用于对预训练模型进行微调,首先接收用于对所述预训练模型进行微调的初始文件,对所述初始文件进行文本提取,并对提取到的文本内容进行分割,得到适应于所述文本内容的语义多个文本块,从而基于预先配置的提示词模板和所述多个文本块,生成适应于所述文本内容的提示词,进一步的,基于所述提示词,可以得到对所述预训练模型进行微调的微调数据集。有效避免人工对初始文件的内容进行提取和标注所带来的工作量,以及人工标注过程中因个体对文本的理解差异和主观性所带来的数据偏差。
技术关键词
预训练模型 生成方法 文本识别 格式 光学字符识别技术 编码 数据 应用程序编程接口 自然语言 语义 可读存储介质 指令 计算机程序产品 模板 存储器 生成装置 处理器 计算机设备