一种基于蒸馏的持续自监督多类型语音声学特征表示方法
申请号:CN202510054722
申请日期:2025-01-14
公开号:CN119832940B
公开日期:2025-10-03
类型:发明专利
摘要
本发明涉及深度学习技术领域,具体为一种基于蒸馏的持续自监督多类型语音声学特征表示方法,包括:语音数据的采集;对采集的语音数据进行预处理,并将预处理后的不同类型语音数据分配到不同训练阶段;初始化一个掩蔽自监督特征提取模型;根据模型输出的重构特征构建重演缓冲区并进行数据增强;在下一阶段更新掩蔽自监督特征提取模型,利用重演缓冲区进行特征蒸馏;得到拟提取的多类型语音的声学特征;该方法将多类型语音数据按序训练,能够防止不同数据发生数据冲突;其次,在重演缓冲区数据上利用余弦相似度作为正则项进行特征蒸馏来保留知识,可在防止旧知识遗忘的同时,增强模型的可塑性。
技术关键词
谱图特征
语音声学特征
特征提取模型
语音特征提取
蒸馏
阶段
数据
重构
样本
模型训练模块
更新模型参数
深度学习技术
频谱特征
处理器
语谱图
序列