摘要
本发明公开了一种基于视觉强监督的通用阅读序构造方法,属于自然语言处理技术领域,其包括如下步骤:S1、数据收集:收集包含文本和对应视觉信息的大规模数据集;S2、数据预处理:对收集的文本信息和视觉信息进行预处理;S3、特征提取:对于文本,使用预训练的语言模型提取文本的特征向量,以捕捉文本的语义信息;S4、特征融合;S5、阅读序构造;S6、应用评估。本发明通过经过预训练的模型能够更全面地理解文档内容,从而提高阅读理解的准确性,这种结合不仅增强了对文本含义的把握,也使得模型能够更好地捕捉到图像中的关键元素,从而在多模态环境下提供更准确的理解,通过学习不同类型文档的结构特点,模型可以自动识别并处理复杂的文本结构。