摘要
本申请公开了一种音频文本对齐方法、装置、设备及存储介质,涉及语音处理技术领域,包括:获取初始音频数据和相应的转录文本,获取初始音频数据对应的节奏变化率指数,并对转录文本进行语义分析,以获取各初始语义单元的重要程度;根据重要程度确定出目标语义单元,并将各目标语义单元与初始音频数据进行初步匹配,以确定各目标语义单元对应的锚点位置;基于节奏变化率指数为初始音频数据分配时间戳,以获取相应的目标音频数据,基于各锚点位置将目标音频数据划分为不同音频片段,并基于时间戳将音频片段与转录文本进行对齐。通过结合音频的节奏特性与文本的语义对音频与文本进行对齐,保证了音频和文本的对齐精度。