摘要
本发明涉及一种基于跨模态动态查询网络的教师行为识别方法,属于人工智能教育应用领域。解决现有技术对教育场景动态交互性、语义复杂性及环境干扰性适应不足的问题。方法包括:通过时间空间变换网络提取视频时空特征,结合对比语言图像预训练模型生成语义原型;采用多区域注意力模块实现层级化特征融合,筛选语义相关视觉线索;利用动态查询解码模块生成自适应查询向量驱动分类决策;基于交叉注意力机制输出行为识别结果。技术效果体现为:显著提升复杂教学行为表征区分度,增强动态课堂环境鲁棒性,优化多类别行为决策可靠性,实现深层教育语义理解,满足高效低耗的落地应用需求。