一种基于视听融合聚类的说话人日志生成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于视听融合聚类的说话人日志生成方法
申请号:CN202510077271
申请日期:2025-01-17
公开号:CN119964596B
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了一种基于视听融合聚类的说话人日志生成方法,旨在解决多说话人场景中的“谁在何时说话”问题。该方法通过以下步骤实现:首先,采用重叠感知的语音分段模型进行音频片段的分段,解决重叠语音问题;其次,利用先进的说话人验证模型提取每段音频的说话人声纹特征以及通过面部跟踪和说话人检测生成的说话分数矩阵;然后,通过音视频联合聚类方法,根据音频特征和视觉信息优化聚类数目,并利用K均值聚类完成说话人聚类;实验结果表明,采用该方法的系统在Ego4D验证集上取得了最低的日志错误率(DER)。
技术关键词
日志生成方法 视听 特征值 日志方法 语音 视觉信息优化 联合聚类方法 矩阵 视频 人脸检测算法 三元组 追踪算法 声纹特征 音频特征 序列帧