基于扩散注意力模型的视频对齐的文本生成音频方法及系统
申请号:CN202410847265
申请日期:2024-06-27
公开号:CN118840997A
公开日期:2024-10-25
类型:发明专利
摘要
本发明公开了一种基于扩散注意力模型的视频对齐的文本生成音频方法及系统,包括:S1,获取待处理音频信号、视频信号及文本提示,提取文本特征和视觉特征;S2,基于视觉特征利用时间自注意层获取时间视觉表示,将时间视觉表示和文本特征输入多模态残差网络进行特征融合,同时基于预设批次利用CLAP模型将时间视觉表示和文本特征对齐以获取视觉对齐文本嵌入;S3,利用STFT基于音频信号获取时频谱图,基于时频谱图利用预设音频编码器获取音频特征;S4,将视觉对齐文本嵌入和音频特征输入预设音频生成模型获取对齐音频嵌入,基于音频解码器获取对齐音频表示。本发明显著增强了TTA生成的准确性和一致性。
技术关键词
注意力模型
音频特征
视觉特征
音频编码器
信号处理模块
音频解码器
补丁
残差网络
视频编码器
表达式
多模态
文本编码器
缩放参数
音频系统
矩阵