摘要
本发明涉及智能家居监控技术领域,特别是一种基于音视频关联信息瓶颈的视频定位方法,包括:特征提取:将未剪辑视频、查询语言及对应音频投影到相同维度后注入嵌入层,然后进行编码,通过注意力模块获取文本查询拼接特征与音频拼接特征;多模态协同突显语义变分门控过滤:利用多层感知机编码器将特征嵌入潜在表示得到隐层特征,经可学习变分门控机制处理后融合得到跨模态特征;融合模态与跨视频语义过滤:跨模态特征经编码器得潜在跨模态特征,结合边界预测器,通过优化互信息构建损失函数;边界预测阶段,将潜在跨模态特征输入边界预测器,选取概率最大的起始帧和结束帧完成定位。本发明能够实现对特定行为或事件的有效识别和预警。