基于奖励机制的报告生成方法、装置、设备及介质

申请号：CN202511465668

申请日期：2025-10-14

公开号：CN120930625A

公开日期：2025-11-11

类型：发明专利

摘要

本发明涉及人工智能技术领域，提供一种基于奖励机制的报告生成方法、装置、设备及介质，一方面，以相关性、流畅性、多样性、长度控制、安全性、位次描述及术语使用率为奖惩维度构建奖励模型，能够从多维度提升报告质量；另一方面，采用直接偏好优化算法，基于问答对及奖励模型对非推理模型进行强化训练，并利用监督微调算法基于标注训练集进行模型微调，能够在第一阶段基于直接偏好优化算法使非推理模型具备思考能力，生成的思考链能够提高报告生成过程的逻辑性及条理性，在第二阶段通过监督微调算法能够对模型输出进一步优化，确保生成报告符合专业标准，在基于直接偏好优化算法提升生成效率并降低运算成本的同时，还提升了生成报告的质量。

技术关键词

报告生成方法报告生成装置机制生成指令术语算法计算机设备生成报告训练集可读存储介质微调单元矩阵人工智能技术表格数据解析单元关系参数