一种基于视觉强监督的通用阅读序构造方法

申请号：CN202510388449

申请日期：2025-03-31

公开号：CN120496080A

公开日期：2025-08-15

类型：发明专利

摘要

本发明公开了一种基于视觉强监督的通用阅读序构造方法，属于自然语言处理技术领域，其包括如下步骤：S1、数据收集：收集包含文本和对应视觉信息的大规模数据集；S2、数据预处理：对收集的文本信息和视觉信息进行预处理；S3、特征提取：对于文本，使用预训练的语言模型提取文本的特征向量，以捕捉文本的语义信息；S4、特征融合；S5、阅读序构造；S6、应用评估。本发明通过经过预训练的模型能够更全面地理解文档内容，从而提高阅读理解的准确性，这种结合不仅增强了对文本含义的把握，也使得模型能够更好地捕捉到图像中的关键元素，从而在多模态环境下提供更准确的理解，通过学习不同类型文档的结构特点，模型可以自动识别并处理复杂的文本结构。

技术关键词

文本特征向量卷积神经网络提取引入注意力机制预训练语言模型视觉特征提取长短期记忆网络训练数据量图像处理算法答案指标图像缩放插值算法语义词典自然语言