摘要
本公开涉及使用大语言模型的合成数据生成。在各个示例中,可以使用包括对应语言模型(例如,自回归LLM)的问题和答案生成模型来生成合成问题‑答案(QA)对。可以使用表示特定知识库的文本数据储存库来通过将来自储存库的文本数据划分为表示上下文的文本单元(例如,段落)来获取合成QA对。对于每个文本单元,问题生成模型可以被提示以从该文本单元生成合成问题,并且答案生成模型可以被提示以生成对合成问题的合成答案。可以使用文本蕴涵和/或人工评估来过滤掉可能由于幻觉产生的低质量、不正确和/或无效的QA对。因此,合成QA对可以用作和/或可以用于生成一个或更多个机器学习模型的训练数据。