基于多模态智能体驱动的OTT视觉特征提取系统及方法

申请号：CN202511156485

申请日期：2025-08-19

公开号：CN120676177B

公开日期：2025-10-31

类型：发明专利

摘要

本发明涉及互联网电视服务技术领域，具体为基于多模态智能体驱动的OTT视觉特征提取系统及方法，包括：捕获设备的屏幕实时视频流；对目标广告图像及实时视频流进行处理，通过多模态视觉感知模型提取出双流异构视觉特征，包括全局内容感知特征和局部几何结构特征；执行分层匹配算法，利用全局内容感知特征进行计算筛选出候选帧，在候选帧内利用局部几何结构特征进行匹配建立包含所有匹配的初始关键点对应关系集合，对集合进行空间聚类分离出广告实例，通过几何变换计算获得实例的边界框；根据边界框，在原始视频帧上对目标广告所在区域进行高亮显示生成可视化监播结果。本发明通过多模态智能体驱动，实现OTT广告视觉特征提取与监播。

技术关键词

视觉特征提取实时视频流感知特征广告关键点多模态注意力编码器通道注意力机制物联网接口生成高分辨率指令异构多层感知机空间邻近关系图像屏幕