摘要
本发明提供一种训练数据构建方法、装置、设备及存储介质,涉及人工智能技术领域,其中方法包括获取待处理长文本切分后的每个文本片段的语义结构化数据;对于每个文本片段,将语义结构化数据输入至第一大模型,得到第一大模型输出的目标问题;第一大模型是基于语义结构化数据及第一候选问题对初始大模型训练得到的;第一候选问题为利用初始大模型,对语义结构化数据进行反编译得到的;将目标问题分别输入至多个第二大模型,获取多个第二大模型输出的答案中的目标答案;基于目标问题及目标答案,构建出训练数据。本发明实现了高效、高质量的长文本有监督微调数据构建。