摘要
本申请公开了一种基于截图的视觉语言模型交互方法、设备及介质,涉及多模态大模型技术领域,方法包括:基于预设的截图目录,对截图目录的目录时间戳进行时间戳遍历分析,确定用户当前截图数据;对用户当前截图数据进行分析模型推荐评估,以得到优选分析模型;根据优选分析模型,通过调用函数配置,确定优选分析模型的调用函数;基于调用函数,将用户当前截图输入优选分析模型,得到文本分析数据;获取用户指令数据,并对用户指令数据和文本分析数据进行综合语义分析,以得到截图分析结果。本申请通过上述方法解决了用户截图图像信息搜索操作流程繁琐的技术问题。