摘要
本发明提供基于强化学习的LLM输出稳定性控制方法及系统,所述方法包括:对文献数据进行多模态结构化解析,提取内容单元并构建特征向量集合和关联映射表;并行驱动文本逻辑处理模块和视觉语义处理模块对跨模态任务单元解读,构建初始摘要集合;在跨模态一致性奖励驱动的迭代闭环中,根据当前联合状态构建联合动作,由跨模态一致性仲裁器计算奖励信号并构建近端策略优化算更新策略网络,直至奖励信号收敛;基于关联映射表,驱动序列到序列语言模型对最终联合状态集合的最终文本摘要和信息描述集合重构,生成最终摘要。本发明通过结构化解析与多模态协同控制,确保摘要内容的一致性与稳定性,适用于自然语言处理与强化学习领域。