摘要
本申请公开了数据生成方法、装置、设备及存储介质,该方法包括:步骤1:对预设的非结构化数据进行自动化处理,生成结构化数据;步骤2:基于结构化数据及预设的角色提示生成对话样本;步骤3:通过预设的质量检测规则分别对结构化数据和对话样本进行评估并生成反馈指令;步骤4:基于反馈指令对结构化数据和/或对话样本的生成策略进行优化;根据优化后的结构化数据生成策略和/或对话样本生成策略迭代执行所述步骤1~4直至评估结构化数据和对话样本均合格,输出优化后的第一对话样本。本申请通过自动化流程替代人工标注、通过实时反馈减少无效生成、通过迭代优化保障数据质量,有效解决了传统方法中数据稀缺、标注成本高及质量波动的问题。