音素对齐方法、装置、设备及介质

申请号：CN202510213529

申请日期：2025-02-24

公开号：CN119832928B

公开日期：2025-10-03

类型：发明专利

摘要

本发明涉及人工智能领域，提供了一种音素对齐方法、装置、设备及介质，方法包括：基于预先获取到的汉字序列确定汉字序列的文本特征；通过声学模型提取与汉字序列对应的音频信息的时频特征；通过强制对齐模型及时频特征对汉字序列及音频信息进行时间步长对齐，得到对齐后音频特征；对文本特征及对齐后音频特征进行融合，生成对应的联合嵌入特征；通过音素解码模型获取与联合嵌入特征对应的音素序列。本发明实施例可通过对文本特征及对齐后音频特征进行融合，生成对应的联合嵌入特征，实现精准捕捉发音规律，适应复杂的实际场景需求；本发明实施例还可通过音素解码模型获取与联合嵌入特征对应的音素序列，实现提高音素对齐的准确性及鲁棒性。

技术关键词

嵌入特征对齐方法音频特征汉字序列解码模型文本偏差解码模块处理器对齐装置注意力机制字符可读存储介质存储器鲁棒性发音电子设备