视频字幕生成方法、装置、设备及介质

申请号：CN202411494279

申请日期：2024-10-24

公开号：CN119383290B

公开日期：2025-10-14

类型：发明专利

摘要

本发明涉及人工智能技术领域和金融科技领域，公开了一种视频字幕生成方法，通过对视频数据进行下采样处理，提取视频帧序列的外观特征和运动特征，通过特征编码模块生成视频特征，结合情感类别库和情感词汇库对视频特征进行情感编码生成情感特征。处理第一个视频帧时，利用初始情感引导强度生成初始字幕片段和字幕特征；处理后续视频帧时，结合当前视频帧的视频特征、情感特征以及前一个视频帧的字幕特征，生成对应的字幕片段和字幕特征。本发明通过融合视频特征和情感特征，能够准确捕捉视频中的情感线索，生成与视频情感内容相匹配的字幕片段。通过注意力机制对视频帧之间的情感关联进行分析，确保字幕生成的连贯性和一致性，提升字幕的准确性。

技术关键词

视频字幕生成方法情感特征情感类别视频帧编码模块二维卷积神经网络三维卷积神经网络运动特征字幕生成程序注意力机制长短期记忆神经网络字幕生成装置特征提取模块序列视频情感内容强度物体运动轨迹