一种基于截图的视觉语言模型交互方法、设备及介质

申请号：CN202510065649

申请日期：2025-01-16

公开号：CN119474020A

公开日期：2025-02-18

类型：发明专利

摘要

本申请公开了一种基于截图的视觉语言模型交互方法、设备及介质，涉及多模态大模型技术领域，方法包括：基于预设的截图目录，对截图目录的目录时间戳进行时间戳遍历分析，确定用户当前截图数据；对用户当前截图数据进行分析模型推荐评估，以得到优选分析模型；根据优选分析模型，通过调用函数配置，确定优选分析模型的调用函数；基于调用函数，将用户当前截图输入优选分析模型，得到文本分析数据；获取用户指令数据，并对用户指令数据和文本分析数据进行综合语义分析，以得到截图分析结果。本申请通过上述方法解决了用户截图图像信息搜索操作流程繁琐的技术问题。

技术关键词

交互方法综合语义展示界面数据目录文本视觉计算机可执行指令参数计算机存储介质交互设备周期性处理器通信意图多模态图片存储器排版