一种面向视觉语言慢思考推理的半离线策略强化学习方法

申请号：CN202510875585

申请日期：2025-06-27

公开号：CN120781972A

公开日期：2025-10-14

类型：发明专利

摘要

本发明涉及一种面向视觉语言慢思考推理的半离线策略强化学习方法，旨在解决当前大规模视觉语言模型(LVLM)在复杂多模态任务中的推理能力不足的问题，发明涉及可扩展的半离线策略强化学习(SOPHIA)框架，包括构建结合在线策略视觉理解与离线策略推理的半离策略行为模型、设计视觉与推理奖励的回传与分配机制以及基于视觉和推理奖励的离线策略优化方法三部分。与现有技术相比，本发明系统性提升LVLM的视觉慢思考推理能力，同时克服现有方法在视觉理解一致性与推理泛化能力方面的不足，提升LVLM的视觉慢思考推理能力。

技术关键词

强化学习方法视觉离线轨迹策略优化方法答案样本图像结构大语言模型信号电子设备程序可读存储介质多模态文本存储器在线数据