一种直播字幕生成方法及相关装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种直播字幕生成方法及相关装置
申请号:CN202510357222
申请日期:2025-03-25
公开号:CN119865669B
公开日期:2025-07-04
类型:发明专利
摘要
本发明公开了一种直播字幕生成方法及相关装置,涉及直播领域,包括:获取直播音频流数据,并进行流式语音识别得到流式字幕文本,基于音频短时能量和语音活动检测置信度对直播音频流数据切分得到多个音频分块,并进行离线语音识别得到离线字幕文本,将流式字幕文本和离线字幕文本进行时间戳对齐得到目标流式字幕文本和目标离线字幕文本,利用目标离线字幕文本对目标流式字幕文本进行校正得到直播字幕。本申请先利用流式语音识别技术对直播音频流数据进行初步识别,然后利用离线语音识别得到离线字幕文本对流式语音识别结果进行校正,实现流式识别语音的实时响应与离线高精度校正语音识别结果的协同输出,使直播字幕在实时性和准确率上达到平衡。
技术关键词
音频分块 字幕生成方法 语音活动检测 离线语音识别模型 文本 多模态特征 缓存管理策略 MFCC特征 字幕生成装置 校正 数据 语音识别单元 语音识别技术 剪枝技术 分块策略