摘要
本发明公开了一种用于自动生成完形填空题干扰项的强化学习系统,通过双重奖励结构对人工标准干扰项赋予固定高奖励,明确高质量标准,对模型生成的干扰候选项基于置信度分数赋予动态奖励,使模型能依据不同奖励反馈精准判断候选项质量层次,减少质量参差不齐;自适应奖励缩放模块根据模型性能调整奖励强度,训练初期放大奖惩信号,助模型快速学习基本生成能力,收敛阶段细化奖励差异,提升候选项质量稳定性;此外,自适应奖励缩放模块持续优化动态奖励映射规则,通过对比历史与当前情况迭代调整转换参数,让奖励机制适应模型变化,为模型提供有效引导,使模型更准确捕捉高质量干扰项特征并优化生成过程,从而更好学习相关特征。