一种基于视觉增强实体级交互网络的多模态摘要生成方法

申请号：CN202410755744

申请日期：2024-06-12

公开号：CN118520417A

公开日期：2024-08-20

类型：发明专利

摘要

本发明提出了一种视觉增强实体级交互网络的多模态摘要方法，设计了跨模态实体交互模块，该模块包括句子级、实体级和物体级三个级别的特征，从而更好地融合文本中的实体信息与图像中的物体信息，提供更丰富的多模态表示。同时，将提取的图像特征融入物体引导的视觉增强模块中。该模块能够全面提取视觉特征，并增强图像对物体区域的关注度，能够更有效地将视觉信息注入多模态解码器中，提高多模态摘要的性能。

技术关键词

实体物体交互网络解码器视觉特征摘要方法融合特征多模态跨模态交互特征摘要生成方法图像注意力机制索引文本网格特征模块