一种音频文本对齐方法、装置、设备及存储介质

申请号：CN202510526402

申请日期：2025-04-25

公开号：CN120104759B

公开日期：2025-08-01

类型：发明专利

摘要

本申请公开了一种音频文本对齐方法、装置、设备及存储介质，涉及语音处理技术领域，包括：获取初始音频数据和相应的转录文本，获取初始音频数据对应的节奏变化率指数，并对转录文本进行语义分析，以获取各初始语义单元的重要程度；根据重要程度确定出目标语义单元，并将各目标语义单元与初始音频数据进行初步匹配，以确定各目标语义单元对应的锚点位置；基于节奏变化率指数为初始音频数据分配时间戳，以获取相应的目标音频数据，基于各锚点位置将目标音频数据划分为不同音频片段，并基于时间戳将音频片段与转录文本进行对齐。通过结合音频的节奏特性与文本的语义对音频与文本进行对齐，保证了音频和文本的对齐精度。

技术关键词

音频语义对齐方法文本数据指数话题锚点语音节点复杂度动态地句法结构对齐装置密度对齐模块核心风格分析模块可读存储介质