一种基于蒸馏的持续自监督多类型语音声学特征表示方法

申请号：CN202510054722

申请日期：2025-01-14

公开号：CN119832940B

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及深度学习技术领域，具体为一种基于蒸馏的持续自监督多类型语音声学特征表示方法，包括：语音数据的采集；对采集的语音数据进行预处理，并将预处理后的不同类型语音数据分配到不同训练阶段；初始化一个掩蔽自监督特征提取模型；根据模型输出的重构特征构建重演缓冲区并进行数据增强；在下一阶段更新掩蔽自监督特征提取模型，利用重演缓冲区进行特征蒸馏；得到拟提取的多类型语音的声学特征；该方法将多类型语音数据按序训练，能够防止不同数据发生数据冲突；其次，在重演缓冲区数据上利用余弦相似度作为正则项进行特征蒸馏来保留知识，可在防止旧知识遗忘的同时，增强模型的可塑性。

技术关键词

谱图特征语音声学特征特征提取模型语音特征提取蒸馏阶段数据重构样本模型训练模块更新模型参数深度学习技术频谱特征处理器语谱图序列

系统为您推荐了相关专利信息

基于自适应优化的领域特化大模型微调与部署方法及系统

知识蒸馏技术模型压缩样本资源受限环境命名实体识别

一种融入提示学习的生成式小样本事件检测方法及设备

事件检测方法样本训练语言模型事件触发词事件检测技术

血压监测方法、系统、电子设备、存储介质及产品

血压监测方法学生教师血压监测系统信号

基于补偿特征对抗蒸馏的无人机图像目标识别方法及装置

蒸馏逻辑学生计算机可读取存储介质识别方法

基于多模型的石化生产流股分子级组成的预测方法及系统

分子数字化结构多模型结构单元概率密度函数