基于奖励机制的报告生成方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于奖励机制的报告生成方法、装置、设备及介质
申请号:CN202511465668
申请日期:2025-10-14
公开号:CN120930625A
公开日期:2025-11-11
类型:发明专利
摘要
本发明涉及人工智能技术领域,提供一种基于奖励机制的报告生成方法、装置、设备及介质,一方面,以相关性、流畅性、多样性、长度控制、安全性、位次描述及术语使用率为奖惩维度构建奖励模型,能够从多维度提升报告质量;另一方面,采用直接偏好优化算法,基于问答对及奖励模型对非推理模型进行强化训练,并利用监督微调算法基于标注训练集进行模型微调,能够在第一阶段基于直接偏好优化算法使非推理模型具备思考能力,生成的思考链能够提高报告生成过程的逻辑性及条理性,在第二阶段通过监督微调算法能够对模型输出进一步优化,确保生成报告符合专业标准,在基于直接偏好优化算法提升生成效率并降低运算成本的同时,还提升了生成报告的质量。
技术关键词
报告生成方法 报告生成装置 机制 生成指令 术语 算法 计算机设备 生成报告 训练集 可读存储介质 微调单元 矩阵 人工智能技术 表格 数据 解析单元 关系 参数