基于双录场景的违规行为检测方法、装置及计算机设备

申请号：CN202411029321

申请日期：2024-07-29

公开号：CN118965069A

公开日期：2024-11-15

类型：发明专利

摘要

本申请实施例属于人工智能领域，涉及一种基于双录场景的违规行为检测方法，包括：获取待检测的音视频；将音视频输入双录违规检测模型中的多模态特征提取网络，以提取音视频的多模态特征，多模态特征包括音视频的视频特征和音频特征；将多模态特征输入双录违规检测模型中的音频分离网络，得到音视频中各说话人的音频；基于各说话人的音频，通过多模态特征提取网络在各说话人中确定关键说话人，并确定关键说话人的音频；将多模态特征和关键说话人的音频输入双录违规检测模型中的违规检测网络，以进行旁人指导违规检测，得到音视频的违规检测结果。本申请解决了双录场景中旁人指导违规行为检测准确性较低的问题。

技术关键词

违规检测模型多模态特征音视频特征提取网络音频特征计算机可读指令场景声纹特征编码特征计算机设备同步性可读存储介质发声特征提取模块样本

系统为您推荐了相关专利信息

一种基于Transformer的无监督细胞分割方法

细胞分割方法局部图像特征文本高维特征向量图像块

长文本匹配方法和装置

文本匹配方法滑动窗口增强子语义降噪单元

一种基于自监督预训练的无监督小样本宫颈细胞分类方法

特征提取网络细胞分类方法嵌入特征样本宫颈

软件定义网络的分布式音视频互联系统API安全调用

软件定义网络互联系统音视频协议数据

一种数字医学健康参数监测装置

数字医学健康参数监测装置脉象数据眼动数据模型库多算法融合模型