摘要
本发明涉及自然语言处理技术领域,特别涉及一种对话摘要生成模型微调训练用样本数据选择方法及系统,利用第一模型生成训练样本数据集中各会话数据的候选摘要,计算候选摘要与对应的参考摘要的ROUGE得分并对得分进行排序,选取得分小于第一阈值的候选摘要和参考摘要,并依据选取的候选摘要和参考摘要得到候选样本数据集;利用第二模型生成候选样本数据集中会话数据语义向量,计算候选样本数据集中会话数据语义向量的相似度,并基于相似度并通过多样性采样来获取对话摘要生成模型微调训练用样本数据。本发明通过数据选择策略从训练数据中筛选高质量的训练样本,以在模型微调训练时保证模型性能的同时,能够减少计算成本、提高效率。