基于多模态大模型的截图内容抽取方法、系统和设备

申请号：CN202411978721

申请日期：2024-12-30

公开号：CN119785359A

公开日期：2025-04-08

类型：发明专利

摘要

本发明提供了一种基于多模态大模型的截图内容抽取方法，用于提取OTA酒店结构化信息，包括如下步骤：获取带有酒店信息的截图图像；通过光学字符识别模型对图像进行文本识别，得到文本信息框集合；通过图像定位模型对图像进行文字区域定位，并提取文字区域的文本内容，得到文本内容集合；将文本内容集合输入至文本大模型，通过预设的提示词进行结构化信息抽取，得到第一结构化信息；将图像输入视觉语言模型，通过提示词进行结构化信息抽取，得到第二结构化信息；对第一结构化信息和第二结构化信息进行比对和融合，得到酒店结构化信息。本发明能够更全面、更准确地理解图像内容，显著提高了酒店结构化信息抽取的准确率，降低了信息提取的错误率。

技术关键词

内容抽取方法多模态图像定位模型光学字符识别文本识别训练语言模型视觉抽取系统深度学习模型抽取设备图像增强处理器错误率指令关键词纠错格式存储器