基于视觉风格特征的多样性增强协同语音动作生成系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于视觉风格特征的多样性增强协同语音动作生成系统
申请号:CN202411588620
申请日期:2024-11-08
公开号:CN119540034B
公开日期:2025-08-08
类型:发明专利
摘要
本发明公开了基于视觉风格特征的多样性增强协同语音动作生成系统,所述系统包括:特征提取多样性增强模块将参考视频输入到3D人体姿态估计网络中以获得styleclips。通过引入额外的styleclips,可以获取更多的特征信息,从而增加动作的多样性。风格编码器多样性补偿模块利用具有附加注意力机制池化层的transformer风格编码器来有效提取styleclips的深度学习表示。最后,动作预测器多样性驱动模块采用交叉注意力机制,将MFCC和风格代码进行融合,在交叉条件自回归生成动作过程中进行影响,从而调节生成的动作来增加多样性。所述方法在保持动作自然度的同时,显著提高了生成动作的多样性。
技术关键词
风格 编码器 身体 生成系统 梅尔频率倒谱系数 输入解码器 融合特征 交叉注意力机制 索引 音频 序列 动作特征 训练语音模型 生成动作 矩阵 人体姿态估计 时间卷积网络