一种直播字幕生成方法及相关装置

申请号：CN202510357222

申请日期：2025-03-25

公开号：CN119865669B

公开日期：2025-07-04

类型：发明专利

摘要

本发明公开了一种直播字幕生成方法及相关装置，涉及直播领域，包括：获取直播音频流数据，并进行流式语音识别得到流式字幕文本，基于音频短时能量和语音活动检测置信度对直播音频流数据切分得到多个音频分块，并进行离线语音识别得到离线字幕文本，将流式字幕文本和离线字幕文本进行时间戳对齐得到目标流式字幕文本和目标离线字幕文本，利用目标离线字幕文本对目标流式字幕文本进行校正得到直播字幕。本申请先利用流式语音识别技术对直播音频流数据进行初步识别，然后利用离线语音识别得到离线字幕文本对流式语音识别结果进行校正，实现流式识别语音的实时响应与离线高精度校正语音识别结果的协同输出，使直播字幕在实时性和准确率上达到平衡。

技术关键词

音频分块字幕生成方法语音活动检测离线语音识别模型文本多模态特征缓存管理策略 MFCC特征字幕生成装置校正数据语音识别单元语音识别技术剪枝技术分块策略