一种基于轻量级BERT的中文电子书语音播报方法

申请号：CN202510115309

申请日期：2025-01-24

公开号：CN120089125A

公开日期：2025-06-03

类型：发明专利

摘要

本发明公开了一种基于轻量级BERT的中文电子书语音播报方法，包括以下步骤：(1)获取数据集并进行预处理；(2)构建微调教师模型的数据集，利用工具提取多音字的词性与读音作为训练目标；并进行预处理；(3)对训练目标中无关的读音进行掩码处理；(4)采用BERT模型作为学生模型，利用结构搜索优化器对BERT模型进行简化并进行训练；(5)构建多个教师模型，包括候选读音教师模型和词性教师模型；(6)提取各教师模型的输出，并通过学生模型在相同输入上训练，得到轻量级的中文读音预测学生模型；(7)将学生模型处理后的音素序列特征被输入到声学模型和声码器中，最终输出自然的语音播报；本发明显著提升了推理效率，具备较高的实际应用价值。

技术关键词

语音播报方法电子书教师分类器 BERT模型拼音学生编码向量词性预测模型超参数标签序列特征多音字读音搜索算法优化文本发音词典样本