摘要
本发明涉及人工智能技术领域,提供一种基于奖励机制的报告生成方法、装置、设备及介质,一方面,以相关性、流畅性、多样性、长度控制、安全性、位次描述及术语使用率为奖惩维度构建奖励模型,能够从多维度提升报告质量;另一方面,采用直接偏好优化算法,基于问答对及奖励模型对非推理模型进行强化训练,并利用监督微调算法基于标注训练集进行模型微调,能够在第一阶段基于直接偏好优化算法使非推理模型具备思考能力,生成的思考链能够提高报告生成过程的逻辑性及条理性,在第二阶段通过监督微调算法能够对模型输出进一步优化,确保生成报告符合专业标准,在基于直接偏好优化算法提升生成效率并降低运算成本的同时,还提升了生成报告的质量。