一种基于视听融合聚类的说话人日志生成方法

申请号：CN202510077271

申请日期：2025-01-17

公开号：CN119964596B

公开日期：2025-11-21

类型：发明专利

摘要

本发明公开了一种基于视听融合聚类的说话人日志生成方法，旨在解决多说话人场景中的“谁在何时说话”问题。该方法通过以下步骤实现：首先，采用重叠感知的语音分段模型进行音频片段的分段，解决重叠语音问题；其次，利用先进的说话人验证模型提取每段音频的说话人声纹特征以及通过面部跟踪和说话人检测生成的说话分数矩阵；然后，通过音视频联合聚类方法，根据音频特征和视觉信息优化聚类数目，并利用K均值聚类完成说话人聚类；实验结果表明，采用该方法的系统在Ego4D验证集上取得了最低的日志错误率(DER)。

技术关键词

日志生成方法视听特征值日志方法语音视觉信息优化联合聚类方法矩阵视频人脸检测算法三元组追踪算法声纹特征音频特征序列帧