一种无监督的视听分割方法、系统及电子设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种无监督的视听分割方法、系统及电子设备
申请号:CN202411589379
申请日期:2024-11-08
公开号:CN119559971B
公开日期:2025-12-02
类型:发明专利
摘要
本发明公开了一种无监督的视听分割方法、系统及电子设备,方法包括:获取视听数据集,提取得到音频特征和视觉特征;将音频和视觉两个模态的特征进行特征映射到公共特征空间,通过交叉注意力计算两个模态的特征关联,确定视频帧对声源目标的粗粒度定位;挖掘视觉特征的邻域语义关联,构建语义相似矩阵,对声源目标分割进行细粒度修正,得到第一声源目标分割图;根据音视特征交互学习,通过编解码网络生成第二声源目标分割图;将第一声源目标分割图和第二声源目标分割图进行对齐,得到优化后的最终视听分割结果。本发明实施例能够使得声源目标边界信息更准确,以及使得生成声源目标分割图时更加稳定和准确,可广泛应用于音视频处理技术领域。
技术关键词
视觉特征 语义 视听 分割方法 邻域特征 音频特征 无监督 代表 注意力 矩阵 编解码 融合特征 多层感知机 标签 多层卷积网络 空间金字塔池化 均值漂移算法 生成特征集 监督学习模型