摘要
本发明公开了一种基于多模态大模型的意图理解交互方法,包括:明确当前交互场景下的用户完成目标所需的细粒度任务;进行细粒度任务分类和多模态相关子任务分解;收集细粒度任务的训练数据以及多模态任务和相关子任务的数据集;通过所述训练数据和数据集训练多模态大模型;利用训练完成的多模态大模型进行交互控制,处理用户输入。本发明特别适用于需要复杂人机交互的场景,如智能助手和虚拟助理等领域,能够显著提升系统对环境变化的感知和对用户需求的响应能力,减少对多模态任务数据集收集依赖,为人机交互技术的发展提供了重要参考和支持。