一种说话人提取方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种说话人提取方法及系统
申请号:CN202410848619
申请日期:2024-06-27
公开号:CN118865940A
公开日期:2024-10-29
类型:发明专利
摘要
本发明提供一种说话人提取方法及系统,涉及语音识别技术领域,方法包括:获取文本信息和待识别混合音频,所述待识别混合音频中包括目标说话人的目标语音;将所述文本信息和所述待识别音频输入至语音识别模型,确定所述目标说话人,所述语音识别模型包括提示文本提取说话人(PTE)网络和文本语音识别(TSR)网络中的至少一者。本发明通过获取文本信息和待识别混合音频,并将所述文本信息和所述待识别音频输入至语音识别模型,能够同时关注声音的频谱特征和文本信息,又因为所述语音识别模型包括提示文本提取说话人(PTE)网络和文本语音识别(TSR)网络中的至少一者,能够利用混合音频场景下的视觉特性。
技术关键词
语音识别模型 融合特征 音频 递归神经网络 语音编码器 语音适配器 文本编码器 神经网络模型 语音解码器 计算机可读指令 矩阵 交叉注意力机制 语音识别功能 语音识别技术 预训练模型
系统为您推荐了相关专利信息
检测网络模型 通道注意力机制 图书馆座位 Sigmoid函数 特征融合方法
模态特征 融合特征 多模态交互 可见光图像 跨模态
备份方法 内容生成系统 会议纪要 差分编码器 电商
声音转换方法 音色特征 情感特征 融合特征 语音
双耳声源定位方法 双耳音频信号 视听 时域特征提取 频域特征提取