摘要
本发明涉及人工智能领域,提供了一种音素对齐方法、装置、设备及介质,方法包括:基于预先获取到的汉字序列确定汉字序列的文本特征;通过声学模型提取与汉字序列对应的音频信息的时频特征;通过强制对齐模型及时频特征对汉字序列及音频信息进行时间步长对齐,得到对齐后音频特征;对文本特征及对齐后音频特征进行融合,生成对应的联合嵌入特征;通过音素解码模型获取与联合嵌入特征对应的音素序列。本发明实施例可通过对文本特征及对齐后音频特征进行融合,生成对应的联合嵌入特征,实现精准捕捉发音规律,适应复杂的实际场景需求;本发明实施例还可通过音素解码模型获取与联合嵌入特征对应的音素序列,实现提高音素对齐的准确性及鲁棒性。