少样本场景下基于音乐特征引导的音乐视频问答方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
少样本场景下基于音乐特征引导的音乐视频问答方法
申请号:CN202510257748
申请日期:2025-03-05
公开号:CN120179876A
公开日期:2025-06-20
类型:发明专利
摘要
本发明属于人工智能、多模态深度学习技术领域,具体涉及了一种少样本场景下基于音乐特征引导的视频问答方法。本发明通过统计音源信息并提取音乐特性,将音乐的先验知识引入多模态融合过程,实现了对音频与视觉信息的时序一致建模,有效增强了模型对多模态数据的理解能力。并结合大语言模型的知识优势,通过思维链提示补充少样本场景中的语义信息不足,显著提升了模型在数据稀缺条件下的泛化能力和推理能力。通过基于思维链提示的时空感知模型,本发明能够精准选择与当前问题相关的时间段落和空间区域特征,并融合三模态信息生成问答答案,实现了在少样本场景下的高效推理。同时,模型对多模态数据中的噪声具有较强的鲁棒性。
技术关键词
视频问答方法 样本 视觉特征 音乐特征 答案 场景 时间序列特征 注意力 文本编码器 多模态深度学习 大语言模型 音频特征信息 音频特征提取 音源特征 图像编码器 多层感知机