摘要
本发明提出一种基于跨模态AI的国粹艺术基因解码方法及系统,属于人工智能与数字媒体艺术交叉领域,包括:S1:构建国画‑音乐‑文本的多模态数据集;S2:将国画图像输入基于CLIP‑ViT改进的视觉编码器,经过归一化模块、位置编码模块和Transformer编码器,输出512维的视觉Token序列;S3:将视觉Token序列和情感标签输入跨模态适配器,采用自注意力机制将视觉Token直接映射至音乐隐空间,得到音乐嵌入向量;S4:将、用户参数输入改进的高频保真生成对抗网络中,生成符合五声音阶的中国传统音乐音频。本发明方法实现视觉艺术与听觉艺术之间的智能语义联通。