摘要
本发明提供了一种基于多模态大模型的截图内容抽取方法,用于提取OTA酒店结构化信息,包括如下步骤:获取带有酒店信息的截图图像;通过光学字符识别模型对图像进行文本识别,得到文本信息框集合;通过图像定位模型对图像进行文字区域定位,并提取文字区域的文本内容,得到文本内容集合;将文本内容集合输入至文本大模型,通过预设的提示词进行结构化信息抽取,得到第一结构化信息;将图像输入视觉语言模型,通过提示词进行结构化信息抽取,得到第二结构化信息;对第一结构化信息和第二结构化信息进行比对和融合,得到酒店结构化信息。本发明能够更全面、更准确地理解图像内容,显著提高了酒店结构化信息抽取的准确率,降低了信息提取的错误率。