摘要
本申请公开了基于视频姿态捕捉的英语发音评测方法及系统,涉及语言发音评测分析领域,该方法包括:从学习者发音视频中提取在时间轴对齐的音频帧与视频帧,并提取参考英文文章所对应的参考单词序列;将音频帧序列转化为发音文本序列,结合参考单词序列进行比对以确定相应的发音匹配单词序列,并检测是否存在漏读参考单词;分割以确定对应各个发音匹配单词的多个音视频帧单元;确定各个发音匹配单词相应的单词发音音频评分和单词发音姿态评分;基于各个发音匹配单词的单词发音姿态评分和单词发音音频评分和漏读参考单词的检测结果,确定学习者的英语发音综合评分。由此,融合分析学习者发音的音频帧和视频帧,使评测结果更加精确和全面。