摘要
本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种语音风格迁移方法、装置、设备及介质,包括:获取源语音信号与目标风格特征,对源语音信号执行特征提取以生成源语音内容特征与潜在风格特征,对目标风格特征进行编码以生成编码后的目标风格特征,利用预训练的多模态大模型对源语音内容特征、潜在风格特征和编码后的目标风格特征进行风格解耦与迁移处理,生成迁移处理后的特征,基于迁移处理后的特征生成目标语音信号。本发明通过融合源语音的语义与风格信息,并结合编码后的目标风格特征执行风格迁移,利用多模态大模型实现内容与风格的有效解耦和自适应融合,提升了跨说话人、跨场景的语音迁移效果与实用性。