基于多模态大模型的截图内容抽取方法、系统和设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态大模型的截图内容抽取方法、系统和设备
申请号:CN202411978721
申请日期:2024-12-30
公开号:CN119785359A
公开日期:2025-04-08
类型:发明专利
摘要
本发明提供了一种基于多模态大模型的截图内容抽取方法,用于提取OTA酒店结构化信息,包括如下步骤:获取带有酒店信息的截图图像;通过光学字符识别模型对图像进行文本识别,得到文本信息框集合;通过图像定位模型对图像进行文字区域定位,并提取文字区域的文本内容,得到文本内容集合;将文本内容集合输入至文本大模型,通过预设的提示词进行结构化信息抽取,得到第一结构化信息;将图像输入视觉语言模型,通过提示词进行结构化信息抽取,得到第二结构化信息;对第一结构化信息和第二结构化信息进行比对和融合,得到酒店结构化信息。本发明能够更全面、更准确地理解图像内容,显著提高了酒店结构化信息抽取的准确率,降低了信息提取的错误率。
技术关键词
内容抽取方法 多模态 图像定位模型 光学字符识别 文本识别 训练语言模型 视觉 抽取系统 深度学习模型 抽取设备 图像增强 处理器 错误率 指令 关键词 纠错 格式 存储器