摘要
本发明公开了一种基于多模态融合的智能语言学习方法,属于智能语言学习领域。包括以下步骤:获取用户的语音输入信号、唇形视频数据和文本输入数据;对所述语音输入信号进行分帧加窗处理,得到语音特征向量;对所述唇形视频数据进行提取唇形运动特征向量;将所述文本输入数据提取文本语义特征向量;将所述语音特征向量、唇形运动特征向量和文本语义特征向量输入多模态对齐模块,获得对齐后的多模态特征表示;基于所述对齐后的多模态特征表示,通过条件生成模型动态生成个性化的语言学习内容;根据用户对所述语言学习内容的响应,生成多模态反馈信息。本发明采用多模态注意力对齐机制,可以提升学习效率,提高记忆保持率。