基于扩散注意力模型的视频对齐的文本生成音频方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于扩散注意力模型的视频对齐的文本生成音频方法及系统
申请号:CN202410847265
申请日期:2024-06-27
公开号:CN118840997A
公开日期:2024-10-25
类型:发明专利
摘要
本发明公开了一种基于扩散注意力模型的视频对齐的文本生成音频方法及系统,包括:S1,获取待处理音频信号、视频信号及文本提示,提取文本特征和视觉特征;S2,基于视觉特征利用时间自注意层获取时间视觉表示,将时间视觉表示和文本特征输入多模态残差网络进行特征融合,同时基于预设批次利用CLAP模型将时间视觉表示和文本特征对齐以获取视觉对齐文本嵌入;S3,利用STFT基于音频信号获取时频谱图,基于时频谱图利用预设音频编码器获取音频特征;S4,将视觉对齐文本嵌入和音频特征输入预设音频生成模型获取对齐音频嵌入,基于音频解码器获取对齐音频表示。本发明显著增强了TTA生成的准确性和一致性。
技术关键词
注意力模型 音频特征 视觉特征 音频编码器 信号处理模块 音频解码器 补丁 残差网络 视频编码器 表达式 多模态 文本编码器 缩放参数 音频系统 矩阵
系统为您推荐了相关专利信息
分级保护方法 分级保护装置 频谱特征 环网柜主回路 电信号传感器
OCR识别方法 语义角色标注 融合多源信息 在线增量学习 上下文特征
智能监控管理系统 除尘风管 机器人 智能管理模块 电磁干扰环境
关联度分析方法 非结构化文本提取 项目 图谱 视觉特征
注视点预测方法 多模态深度学习 视频编码器 视角 融合特征