一种基于视觉强监督的通用阅读序构造方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于视觉强监督的通用阅读序构造方法
申请号:CN202510388449
申请日期:2025-03-31
公开号:CN120496080A
公开日期:2025-08-15
类型:发明专利
摘要
本发明公开了一种基于视觉强监督的通用阅读序构造方法,属于自然语言处理技术领域,其包括如下步骤:S1、数据收集:收集包含文本和对应视觉信息的大规模数据集;S2、数据预处理:对收集的文本信息和视觉信息进行预处理;S3、特征提取:对于文本,使用预训练的语言模型提取文本的特征向量,以捕捉文本的语义信息;S4、特征融合;S5、阅读序构造;S6、应用评估。本发明通过经过预训练的模型能够更全面地理解文档内容,从而提高阅读理解的准确性,这种结合不仅增强了对文本含义的把握,也使得模型能够更好地捕捉到图像中的关键元素,从而在多模态环境下提供更准确的理解,通过学习不同类型文档的结构特点,模型可以自动识别并处理复杂的文本结构。
技术关键词
文本特征向量 卷积神经网络提取 引入注意力机制 预训练语言模型 视觉特征提取 长短期记忆网络 训练数据量 图像处理算法 答案 指标 图像缩放 插值算法 语义 词典 自然语言