训练数据构建方法、装置、设备及存储介质

申请号：CN202511116381

申请日期：2025-08-11

公开号：CN120804717A

公开日期：2025-10-17

类型：发明专利

摘要

本发明提供一种训练数据构建方法、装置、设备及存储介质，涉及人工智能技术领域，其中方法包括获取待处理长文本切分后的每个文本片段的语义结构化数据；对于每个文本片段，将语义结构化数据输入至第一大模型，得到第一大模型输出的目标问题；第一大模型是基于语义结构化数据及第一候选问题对初始大模型训练得到的；第一候选问题为利用初始大模型，对语义结构化数据进行反编译得到的；将目标问题分别输入至多个第二大模型，获取多个第二大模型输出的答案中的目标答案；基于目标问题及目标答案，构建出训练数据。本发明实现了高效、高质量的长文本有监督微调数据构建。

技术关键词

数据构建方法答案语义文本非暂态计算机可读存储介质实体人工智能技术处理器指标逻辑模块存储器电子设备参数