一种基于多模态融合的智能语言学习方法

申请号：CN202511253941

申请日期：2025-09-03

公开号：CN121034288A

公开日期：2025-11-28

类型：发明专利

摘要

本发明公开了一种基于多模态融合的智能语言学习方法，属于智能语言学习领域。包括以下步骤：获取用户的语音输入信号、唇形视频数据和文本输入数据；对所述语音输入信号进行分帧加窗处理，得到语音特征向量；对所述唇形视频数据进行提取唇形运动特征向量；将所述文本输入数据提取文本语义特征向量；将所述语音特征向量、唇形运动特征向量和文本语义特征向量输入多模态对齐模块，获得对齐后的多模态特征表示；基于所述对齐后的多模态特征表示，通过条件生成模型动态生成个性化的语言学习内容；根据用户对所述语言学习内容的响应，生成多模态反馈信息。本发明采用多模态注意力对齐机制，可以提升学习效率，提高记忆保持率。

技术关键词

语言学习内容智能语言学习方法模态特征梅尔频率倒谱系数短时傅里叶变换文本对齐模块三维卷积神经网络人脸检测定位语音跨模态语言学习系统多模态数据采集多模态注意力预训练语言模型多头注意力机制蒸馏