图文交互对话理解方法和系统、电子设备及存储介质

申请号：CN202510445824

申请日期：2025-04-09

公开号：CN120375377A

公开日期：2025-07-25

类型：发明专利

摘要

本申请提供了一种图文交互对话理解方法和系统、电子设备及存储介质，涉及人工智能技术领域。该方法结合当前图像中的当前标记位置信息，对当前图像、当前标记位置信息和当前自然语言指令进行拼接处理，生成当前输入信息，解决了相关技术中图像与文本割裂的问题，实现了视觉与语言的深度对齐，能够更准确地理解用户输入的图文信息，从而理解用户的意图，进而能够提供准确且有针对性的回答；并且，对原始提示词、一个或多个当前示例、当前输入信息进行拼接处理，生成当前拼接内容，将当前拼接内容输入微调后的视觉语言模型，这样能让模型基于一个或多个当前示例借鉴学习，通过给模型相似的数据和对应理解结果，提高对当前输入信息的推理准确率。

技术关键词

标记位置信息自然语言指令图像图文意图对话理解系统数据多模态视觉编码电子设备文本人工智能技术计算机程序产品拼接单元笔尖存储器轨迹