融合空间表征的说话人日志分析方法、系统及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
融合空间表征的说话人日志分析方法、系统及存储介质
申请号:CN202511316049
申请日期:2025-09-15
公开号:CN121034315A
公开日期:2025-11-28
类型:发明专利
摘要
本申请涉及音频识别及分析技术领域,尤其涉及一种融合空间表征的说话人日志分析方法、系统及存储介质,包括获取多通道音频及其对应单通道音频,对单通道音频进行语音活动检测确定有效语音片段;从有效语音片段中提取声纹表征向量;将多通道音频经处理后输入至空间表征提取模型,模型输出空间表征向量;根据语音活动检测结果,对获得的空间表征向量进行时间对齐和切分,得到切分后的空间表征向量;将声纹表征向量与切分后的空间表征向量进行特征拼接,形成表征融合向量;对表征融合向量进行聚类,根据聚类分组结果生成带时间戳的说话人日志。本申请能够将原始多通道音频转化为低维空间表征向量,进而与声纹表征向量融合实现高精度说话人日志任务。
技术关键词
日志分析方法 语音活动检测 音频 多通道 带时间 特征提取模块 频谱特征 日志分析系统 二维卷积网络 时序特征 波束 短时傅里叶变换 神经网络架构 损失函数优化 无监督聚类 门控循环单元