多智能体协同的多模态推理方法、装置、电子设备和产品
申请号:CN202511251609
申请日期:2025-09-03
公开号:CN120725166A
公开日期:2025-09-30
类型:发明专利
摘要
本申请涉及人工智能技术领域,提出一种多智能体协同的多模态推理方法、装置、电子设备和计算机程序产品。该方法设置了文本推理智能体、视觉理解智能体和判断型智能体共三个智能体,其中,文本推理智能体主导整体的文本逻辑推理,视觉理解智能体负责提供视觉语义信息,判断型智能体负责评估多模态推理的过程是否需要补充额外的视觉语义信息,并在需要补充的情况下触发视觉信息补充流程,引导视觉理解智能体提取所需补充的视觉语义信息。利用三个智能体的协同工作,形成了多模态推理、补充判断和信息补充的闭环机制,在无需执行复杂预处理流程的基础上,能够对多模态文档进行深度语义理解和逻辑推理,从而实现准确、完整的文档理解与答复文本生成。
技术关键词
多模态
视觉
文本
图像
多智能体协同
推理方法
语义
缓存页面
计算机程序产品
电子设备
列表
指令
推理装置
人工智能技术
曲线
处理器
模块
存储器
序列