摘要
本申请提供了一种图文交互对话理解方法和系统、电子设备及存储介质,涉及人工智能技术领域。该方法结合当前图像中的当前标记位置信息,对当前图像、当前标记位置信息和当前自然语言指令进行拼接处理,生成当前输入信息,解决了相关技术中图像与文本割裂的问题,实现了视觉与语言的深度对齐,能够更准确地理解用户输入的图文信息,从而理解用户的意图,进而能够提供准确且有针对性的回答;并且,对原始提示词、一个或多个当前示例、当前输入信息进行拼接处理,生成当前拼接内容,将当前拼接内容输入微调后的视觉语言模型,这样能让模型基于一个或多个当前示例借鉴学习,通过给模型相似的数据和对应理解结果,提高对当前输入信息的推理准确率。