摘要
本发明涉及人工智能技术领域和金融科技领域,公开了一种视频字幕生成方法,通过对视频数据进行下采样处理,提取视频帧序列的外观特征和运动特征,通过特征编码模块生成视频特征,结合情感类别库和情感词汇库对视频特征进行情感编码生成情感特征。处理第一个视频帧时,利用初始情感引导强度生成初始字幕片段和字幕特征;处理后续视频帧时,结合当前视频帧的视频特征、情感特征以及前一个视频帧的字幕特征,生成对应的字幕片段和字幕特征。本发明通过融合视频特征和情感特征,能够准确捕捉视频中的情感线索,生成与视频情感内容相匹配的字幕片段。通过注意力机制对视频帧之间的情感关联进行分析,确保字幕生成的连贯性和一致性,提升字幕的准确性。