一种基于视觉指令微调与演示学习增强的多模态讽刺检测方法

申请号：CN202410755737

申请日期：2024-06-12

公开号：CN118468224A

公开日期：2024-08-09

类型：发明专利

摘要

本发明提出了一种基于视觉指令微调与演示学习增强的多模态讽刺检测方法。该方法将传统的讽刺检测任务重新定义为生成任务，利用生成式多模态大语言模型的强大跨模态交互能力。通过设计指令模板和检索模块，模型能够更好地理解任务目标，并从训练集中检索与输入样本相似的示例作为提示信息，从而提高检测性能。此外，提出了新的测试数据集RedEval，用于评估模型在不同场景下的泛化能力。该方法提高了多模态讽刺检测的准确性和泛化能力，推动了多模态理解和处理技术在复杂情感分析领域的应用。

技术关键词

大语言模型文本编码器图像编码器样本视觉特征社交媒体平台多模态标签指令格式化多层感知器微调方法图像嵌入图像组合传播算法参数数据