摘要
本发明公开了一种直播字幕生成方法及相关装置,涉及直播领域,包括:获取直播音频流数据,并进行流式语音识别得到流式字幕文本,基于音频短时能量和语音活动检测置信度对直播音频流数据切分得到多个音频分块,并进行离线语音识别得到离线字幕文本,将流式字幕文本和离线字幕文本进行时间戳对齐得到目标流式字幕文本和目标离线字幕文本,利用目标离线字幕文本对目标流式字幕文本进行校正得到直播字幕。本申请先利用流式语音识别技术对直播音频流数据进行初步识别,然后利用离线语音识别得到离线字幕文本对流式语音识别结果进行校正,实现流式识别语音的实时响应与离线高精度校正语音识别结果的协同输出,使直播字幕在实时性和准确率上达到平衡。