摘要
本发明涉及计算机技术领域,公开了一种多模态数据融合控制方法、装置、设备及介质,该方法通过在预训练语言模型的Embedding层和Transformer编码器层引入跨模态注意力,实现模态间信息在不同语义层次上的充分融合,形成富有层次性和语义交互性的多模态表示;自适应地调节不同模态信息在多模态融合过程中的重要性权重,实现灵活、动态的跨模态信息交互,提高模型在不同场景下的适应能力和泛化能力;显式地转化生成内容与源输入在语义层面的一致性,并实时评估生成内容与其中一种模态数据之间的相关性,提高模型输出内容的准确性、相关性和可靠性,这样显著提升模型在跨模态理解和生成任务中的性能表现,提高硬件处理效率。