一种基于视听融合聚类的说话人日志生成方法
# 热门搜索 #
大模型
人工智能
openai
融资
chatGPT
AITNT公众号
AITNT APP
AITNT交流群
搜索
首页
AI资讯
AI技术研报
AI监管政策
AI产品测评
AI商业项目
AI产品热榜
AI专利库
寻求报道
一种基于视听融合聚类的说话人日志生成方法
申请号:
CN202510077271
申请日期:
2025-01-17
公开号:
CN119964596B
公开日期:
2025-11-21
类型:
发明专利
摘要
本发明公开了一种基于视听融合聚类的说话人日志生成方法,旨在解决多说话人场景中的“谁在何时说话”问题。该方法通过以下步骤实现:首先,采用重叠感知的语音分段模型进行音频片段的分段,解决重叠语音问题;其次,利用先进的说话人验证模型提取每段音频的说话人声纹特征以及通过面部跟踪和说话人检测生成的说话分数矩阵;然后,通过音视频联合聚类方法,根据音频特征和视觉信息优化聚类数目,并利用K均值聚类完成说话人聚类;实验结果表明,采用该方法的系统在Ego4D验证集上取得了最低的日志错误率(DER)。
技术关键词
日志生成方法
视听
特征值
日志方法
语音
视觉信息优化
联合聚类方法
矩阵
视频
人脸检测算法
三元组
追踪算法
声纹特征
音频特征
序列帧