摘要
本申请涉及语音数据处理技术领域,具体涉及一种用于违规短视频的视频语音识别方法及系统,该方法包括:获取违禁词库和待检测视频,并将违禁词库和待检测视频中的汉字转化为不包含声调的拼音字符串;将各待检测汉字分别与违禁词库中的每个违禁词进行对比的步骤为:确定各待检测汉字的违禁词相似权重;基于拼音字符串分析各待检测汉字及相邻汉字在违禁词中最相似汉字的序号的接近程度,结合所述违禁词相似权重,确定各待检测汉字的违禁词匹配值;基于各待检测汉字与近邻汉字的违禁词匹配值的分布情况,判定各待检测汉字是否为违禁汉字;将出现违禁汉字的待检测视频作为违规视频。本申请旨在提高对违规短视频的检测准确性和效率。