基于跨模态AI的国粹艺术基因解码方法及系统

申请号：CN202511260311

申请日期：2025-09-04

公开号：CN120998160A

公开日期：2025-11-21

类型：发明专利

摘要

本发明提出一种基于跨模态AI的国粹艺术基因解码方法及系统，属于人工智能与数字媒体艺术交叉领域，包括：S1：构建国画‑音乐‑文本的多模态数据集；S2：将国画图像输入基于CLIP‑ViT改进的视觉编码器，经过归一化模块、位置编码模块和Transformer编码器，输出512维的视觉Token序列；S3：将视觉Token序列和情感标签输入跨模态适配器，采用自注意力机制将视觉Token直接映射至音乐隐空间，得到音乐嵌入向量；S4：将、用户参数输入改进的高频保真生成对抗网络中，生成符合五声音阶的中国传统音乐音频。本发明方法实现视觉艺术与听觉艺术之间的智能语义联通。

技术关键词

跨模态国画图像生成对抗网络归一化模块解码方法视觉文本注意力机制编码模块音乐特征数据音频适配器基因多模态编码器非暂态计算机可读存储介质序列