摘要
本发明涉及直播行为监控技术领域,尤指一种基于深度学习的直播行为跟踪系统,通过对直播视频流同步提取图像和音频数据,结合帧抽取、图像增强和语音识别,获得高质量的多源信息,提升特征分析的准确性。通过预训练卷积神经网络提取图像特征,深度学习模型提取音频特征,并融合语音转写文本,基于注意力机制动态调整各模态特征的权重,实现对复杂场景和隐蔽违规行为的精准识别,有效应对图像伪装、隐语表达风险。实时输出违规类别及置信度,一旦检测到疑似违规行为,立即触发告警、中断或遮蔽操作,并将相关证据上传至审核数据库。实现了对直播违规行为的高效、准确和全流程管控。