摘要
本发明提供了一种基于检索增强生成的两阶段问答对构建方法、装置,包括获取待处理的行业知识和产品知识,将行业和产品知识拆分成多个单篇文章,生成文章集合,并采用预设的主题模型对文章集合进行预处理,得到多个不同主题的文章子集,基于预设的prompt输入,得到文章集合对应的话题列表,使用预设的问题改写提示工程对话题列表进行预处理,得到对应话题的问题列表;对文章子集和问题列表进行向量化处理,将处理后得到的向量化结果进行相似度计算,根据相似度计算后的文本块组装prompt,并基于大语言模型LLM生成回答对。本发明先生成特定范围内的问题,再生成答案的策略,提升了问答对的复杂度和多样性;同时,构建了文章合集,提升了问答对的丰富度。