一种基于多层次视觉引导的多模态对话摘要方法

申请号：CN202411732284

申请日期：2024-11-29

公开号：CN119918545A

公开日期：2025-05-02

类型：发明专利

摘要

本申请公开了一种多层次视觉引导的多模态对话摘要方法，涉及互联网、人工智能技术领域，本申请使用预训练的CLIP模型提取对话所包含的视觉信息的全局特征和局部特征，使用预训练模型T5对对话的文本进行文本特征提取，获得富含深层语义信息的视觉特征和文本特征，通过局部多模态注意力交叉模块和全局多模态注意力交叉模块，将全局视觉信息和局部视觉信息与文本特征进行融合对齐，并通过模态融合模块，将全局视觉引导的文本特征和语义引导的局部视觉特征进行融合和拼接，使得多模态对话信息能够相互补充，并且关注对话的上下文，从而提高生成摘要的质量和准确性。

技术关键词

局部视觉特征多模态注意力摘要方法文本交叉模块全局视觉特征长短期记忆网络多层次多模态对话语义跨模态多头注意力机制编码器双线性更新模型参数