一种用于视觉语言模型逐步推理方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种用于视觉语言模型逐步推理方法
申请号:CN202510992052
申请日期:2025-07-18
公开号:CN120911598A
公开日期:2025-11-07
类型:发明专利
摘要
本发明公开了一种用于视觉语言模型逐步推理方法,包括有S1输入文字问题和图像,问题概述模块生成多个问题概述候选结果,推理时间优化模块优化后将问题概述最佳结果作为视觉内容描述模块的输入;S2视觉内容描述模块生成多个视觉内容描述候选结果,推理时间优化模块优化后将视觉内容描述最佳结果作为逻辑分析模块的输入;S3、逻辑分析模块生成多个逻辑分析候选结果,推理时间优化模块优化后将逻辑分析最佳结果作为最后结论模块的输入;S4、最后结论模块生成多个最终结论候选结果,推理时间优化模块优化后输出最终结论最佳结果,增强了模型的训练效率和推理时间可扩展性,大大简化了多模态推理的建模过程,提高了模型在多样化场景中的泛化能力。
技术关键词
逻辑分析 推理方法 视觉 模型训练模块 子模块 多阶段 微调方法 训练样本集 数据 图像 基础 参数 格式 策略 场景 周期