少样本场景下基于音乐特征引导的音乐视频问答方法

申请号：CN202510257748

申请日期：2025-03-05

公开号：CN120179876A

公开日期：2025-06-20

类型：发明专利

摘要

本发明属于人工智能、多模态深度学习技术领域，具体涉及了一种少样本场景下基于音乐特征引导的视频问答方法。本发明通过统计音源信息并提取音乐特性，将音乐的先验知识引入多模态融合过程，实现了对音频与视觉信息的时序一致建模，有效增强了模型对多模态数据的理解能力。并结合大语言模型的知识优势，通过思维链提示补充少样本场景中的语义信息不足，显著提升了模型在数据稀缺条件下的泛化能力和推理能力。通过基于思维链提示的时空感知模型，本发明能够精准选择与当前问题相关的时间段落和空间区域特征，并融合三模态信息生成问答答案，实现了在少样本场景下的高效推理。同时，模型对多模态数据中的噪声具有较强的鲁棒性。

技术关键词

视频问答方法样本视觉特征音乐特征答案场景时间序列特征注意力文本编码器多模态深度学习大语言模型音频特征信息音频特征提取音源特征图像编码器多层感知机