一种用于自动生成完形填空题干扰项的强化学习系统

申请号：CN202510974438

申请日期：2025-07-15

公开号：CN120745877A

公开日期：2025-10-03

类型：发明专利

摘要

本发明公开了一种用于自动生成完形填空题干扰项的强化学习系统，通过双重奖励结构对人工标准干扰项赋予固定高奖励，明确高质量标准，对模型生成的干扰候选项基于置信度分数赋予动态奖励，使模型能依据不同奖励反馈精准判断候选项质量层次，减少质量参差不齐；自适应奖励缩放模块根据模型性能调整奖励强度，训练初期放大奖惩信号，助模型快速学习基本生成能力，收敛阶段细化奖励差异，提升候选项质量稳定性；此外，自适应奖励缩放模块持续优化动态奖励映射规则，通过对比历史与当前情况迭代调整转换参数，让奖励机制适应模型变化，为模型提供有效引导，使模型更准确捕捉高质量干扰项特征并优化生成过程，从而更好学习相关特征。

技术关键词

预训练语言模型强化学习系统强化学习策略子模块强化学习方法动态缩放模块结构模块 sigmoid函数因子处理器阶段强度可读存储介质存储器语义文本计算机