基于扩散注意力模型的视频对齐的文本生成音频方法及系统

申请号：CN202410847265

申请日期：2024-06-27

公开号：CN118840997A

公开日期：2024-10-25

类型：发明专利

摘要

本发明公开了一种基于扩散注意力模型的视频对齐的文本生成音频方法及系统，包括：S1，获取待处理音频信号、视频信号及文本提示，提取文本特征和视觉特征；S2，基于视觉特征利用时间自注意层获取时间视觉表示，将时间视觉表示和文本特征输入多模态残差网络进行特征融合，同时基于预设批次利用CLAP模型将时间视觉表示和文本特征对齐以获取视觉对齐文本嵌入；S3，利用STFT基于音频信号获取时频谱图，基于时频谱图利用预设音频编码器获取音频特征；S4，将视觉对齐文本嵌入和音频特征输入预设音频生成模型获取对齐音频嵌入，基于音频解码器获取对齐音频表示。本发明显著增强了TTA生成的准确性和一致性。

技术关键词

注意力模型音频特征视觉特征音频编码器信号处理模块音频解码器补丁残差网络视频编码器表达式多模态文本编码器缩放参数音频系统矩阵

系统为您推荐了相关专利信息

一种基于脉冲局放检测的环网柜实时分级保护方法及装置

分级保护方法分级保护装置频谱特征环网柜主回路电信号传感器

一种自适应OCR识别方法、系统、设备及介质

OCR识别方法语义角色标注融合多源信息在线增量学习上下文特征

一种除尘风管清堵机器人智能监控管理系统

智能监控管理系统除尘风管机器人智能管理模块电磁干扰环境

个人履历关联度分析方法、装置、设备及介质

关联度分析方法非结构化文本提取项目图谱视觉特征

一种基于多模态深度学习的第一人称视角注视点预测方法

注视点预测方法多模态深度学习视频编码器视角融合特征