摘要
本申请属于人工智能技术领域,涉及一种基于人工智能的内容数据生成方法、装置、计算机设备及存储介质,包括:接收与目标视频对应的视觉输入、音频输入及文本输入;调用包括输入层、分层复合注意力模块及决策模块的融合处理模型;基于输入层对视觉输入、音频输入及文本输入进行特征提取,得到视觉特征、音频特征及文本特征;基于分层复合注意力模块对视觉特征、音频特征及文本特征进行特征融合得到融合特征;基于决策模块对融合特征进行处理,生成目标视频的内容描述;对内容描述进行输出。此外,本申请的内容描述可存储于区块链中。本申请可应用于金融领域和医疗领域中的内容数据生成场景,通过本申请有效地提高了视频内容描述的生成效率。