训练数据构建方法、装置、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
训练数据构建方法、装置、设备及存储介质
申请号:CN202511116381
申请日期:2025-08-11
公开号:CN120804717A
公开日期:2025-10-17
类型:发明专利
摘要
本发明提供一种训练数据构建方法、装置、设备及存储介质,涉及人工智能技术领域,其中方法包括获取待处理长文本切分后的每个文本片段的语义结构化数据;对于每个文本片段,将语义结构化数据输入至第一大模型,得到第一大模型输出的目标问题;第一大模型是基于语义结构化数据及第一候选问题对初始大模型训练得到的;第一候选问题为利用初始大模型,对语义结构化数据进行反编译得到的;将目标问题分别输入至多个第二大模型,获取多个第二大模型输出的答案中的目标答案;基于目标问题及目标答案,构建出训练数据。本发明实现了高效、高质量的长文本有监督微调数据构建。
技术关键词
数据构建方法 答案 语义 文本 非暂态计算机可读存储介质 实体 人工智能技术 处理器 指标 逻辑 模块 存储器 电子设备 参数