一种语音分离方法、装置、存储介质及设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种语音分离方法、装置、存储介质及设备
申请号:CN202510004246
申请日期:2025-01-02
公开号:CN119785817A
公开日期:2025-04-08
类型:发明专利
摘要
本申请公开了一种语音分离方法、装置、存储介质及设备,该方法包括:首先获取待分离的混合语音和目标视频;并提取混合语音的声学特征;然后将混合语音的声学特征和目标视频包含的目标用户唇形的图像输入多模对齐模型,得到目标用户的唇形特征;接着将混合语音的声学特征和目标用户的唇形特征输入多模VAD模型,得到混合语音的分离概率;再根据混合语音的分离概率,结合波束形成算法,计算混合语音对应的多模波束特征,进而可以将混合语音的声学特征、目标用户的唇形特征、多模波束特征输入多模语音分离模型,并根据模型输出的掩蔽信号,从混合语音中更为准确的分离出目标语音,从而提高了对于目标语音的分离效果。
技术关键词
声学特征 唇形特征 波束特征 样本 视频 跨模态 音频编码 图像编码 语音活动检测 支路 长短期记忆网络 可读存储介质 终端设备 处理器 算法 存储器