基于语音特征与自然语言处理的动态视频实时生成系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于语音特征与自然语言处理的动态视频实时生成系统
申请号:CN202511346825
申请日期:2025-09-19
公开号:CN121037651A
公开日期:2025-11-28
类型:发明专利
摘要
本发明涉及视频生成技术领域,具体涉及基于语音特征与自然语言处理的动态视频实时生成系统。该系统包括:通过自然语言处理技术对文本提示的句子结构进行文本解析,解析得到文本输入句,基于音节向量特征和语句顺序特征得到待生成视频的文本提示目标特征;将语音样本输入到语音特征提取模型中,输出待生成视频的语音特征,将文本提示目标特征和语音特征进行特征融合得到音频序列特征,基于嘴部关键点、音频序列特征和背景生成视频的帧,将视频的帧按照生成时间的先后顺序组成视频,能够提升文本与视频内容的语义匹配精度,保障播报信息准确性,提升生成视频语音与视觉的同步协同性。
技术关键词
文本 生成系统 自然语言 语音特征提取 序列特征 BERT模型 语句 交叉注意力机制 Canny边缘检测器 关键点 短语结构 动态 视频生成技术 解码器 语音特征信息 离散傅立叶变换