摘要
本申请公开了一种多层次视觉引导的多模态对话摘要方法,涉及互联网、人工智能技术领域,本申请使用预训练的CLIP模型提取对话所包含的视觉信息的全局特征和局部特征,使用预训练模型T5对对话的文本进行文本特征提取,获得富含深层语义信息的视觉特征和文本特征,通过局部多模态注意力交叉模块和全局多模态注意力交叉模块,将全局视觉信息和局部视觉信息与文本特征进行融合对齐,并通过模态融合模块,将全局视觉引导的文本特征和语义引导的局部视觉特征进行融合和拼接,使得多模态对话信息能够相互补充,并且关注对话的上下文,从而提高生成摘要的质量和准确性。