摘要
本发明涉及人工智能技术领域,公开了一种主观视觉情感解释生成方法和系统。所采用的情感解释模型的构建及训练过程包括:统计各情感标签的归一化频率得到共识比率,映射为多个共识级别;提取图像的全局语义特征和局部补丁特征;将共识级别编码为桶提示,与全局语义特征拼接后输入视觉情感编码器生成视觉情感特征,再与局部补丁特征融合形成双空间视觉表示;将桶提示与提示词文本连接形成共识提示,将共识提示与双空间视觉表示共同输入大语言模型,输出情感解释文本;本发明通过对不同观察者的情感共识程度进行建模,使系统能够捕捉视觉内容引发的多样化主观情感反应,提升了模型对情绪主观性与多样性的感知能力。