一种基于视觉增强实体级交互网络的多模态摘要生成方法
申请号:CN202410755744
申请日期:2024-06-12
公开号:CN118520417A
公开日期:2024-08-20
类型:发明专利
摘要
本发明提出了一种视觉增强实体级交互网络的多模态摘要方法,设计了跨模态实体交互模块,该模块包括句子级、实体级和物体级三个级别的特征,从而更好地融合文本中的实体信息与图像中的物体信息,提供更丰富的多模态表示。同时,将提取的图像特征融入物体引导的视觉增强模块中。该模块能够全面提取视觉特征,并增强图像对物体区域的关注度,能够更有效地将视觉信息注入多模态解码器中,提高多模态摘要的性能。
技术关键词
实体
物体
交互网络
解码器
视觉特征
摘要方法
融合特征
多模态
跨模态
交互特征
摘要生成方法
图像
注意力机制
索引
文本
网格特征
模块