基于语音特征与自然语言处理的动态视频实时生成系统

申请号：CN202511346825

申请日期：2025-09-19

公开号：CN121037651A

公开日期：2025-11-28

类型：发明专利

摘要

本发明涉及视频生成技术领域，具体涉及基于语音特征与自然语言处理的动态视频实时生成系统。该系统包括：通过自然语言处理技术对文本提示的句子结构进行文本解析，解析得到文本输入句，基于音节向量特征和语句顺序特征得到待生成视频的文本提示目标特征；将语音样本输入到语音特征提取模型中，输出待生成视频的语音特征，将文本提示目标特征和语音特征进行特征融合得到音频序列特征，基于嘴部关键点、音频序列特征和背景生成视频的帧，将视频的帧按照生成时间的先后顺序组成视频，能够提升文本与视频内容的语义匹配精度，保障播报信息准确性，提升生成视频语音与视觉的同步协同性。

技术关键词

文本生成系统自然语言语音特征提取序列特征 BERT模型语句交叉注意力机制 Canny边缘检测器关键点短语结构动态视频生成技术解码器语音特征信息离散傅立叶变换