一种用于自动生成完形填空题干扰项的强化学习系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种用于自动生成完形填空题干扰项的强化学习系统
申请号:CN202510974438
申请日期:2025-07-15
公开号:CN120745877A
公开日期:2025-10-03
类型:发明专利
摘要
本发明公开了一种用于自动生成完形填空题干扰项的强化学习系统,通过双重奖励结构对人工标准干扰项赋予固定高奖励,明确高质量标准,对模型生成的干扰候选项基于置信度分数赋予动态奖励,使模型能依据不同奖励反馈精准判断候选项质量层次,减少质量参差不齐;自适应奖励缩放模块根据模型性能调整奖励强度,训练初期放大奖惩信号,助模型快速学习基本生成能力,收敛阶段细化奖励差异,提升候选项质量稳定性;此外,自适应奖励缩放模块持续优化动态奖励映射规则,通过对比历史与当前情况迭代调整转换参数,让奖励机制适应模型变化,为模型提供有效引导,使模型更准确捕捉高质量干扰项特征并优化生成过程,从而更好学习相关特征。
技术关键词
预训练语言模型 强化学习系统 强化学习策略 子模块 强化学习方法 动态 缩放模块 结构模块 sigmoid函数 因子 处理器 阶段 强度 可读存储介质 存储器 语义 文本 计算机