基于单声道人工智能模型的多声道通话录音识别方法及装置

申请号：CN202511393740

申请日期：2025-09-28

公开号：CN120895028A

公开日期：2025-11-04

类型：发明专利

摘要

本发明公开了一种基于单声道人工智能模型的多声道通话录音识别方法，包括：输入多声道通话音频数据；针对每个声道进行语音活动检测，以获取每个声道中的语音片段以及检测时对应的原始时间戳；基于原始时间戳的先后顺序对原始时间戳进行排序，构建一条单声道音频并记录合成时间戳；将构建获得的单声道音频输入至预训练的单声道语音识别模型，以生成识别文本序列并记录输出时间戳；基于合成时间戳和输出时间戳之间的重叠区间，以回溯匹配至原始时间戳；根据回溯匹配的结果构建包含说话人，时间戳以及识别文本的三元组。本发明还提供一种多声道通话录音识别装置。本发明提供的方法能实现在保持语义准确性的同时，识别说话人并重建通话逻辑顺序。

技术关键词

人工智能模型多声道识别方法语音识别模型语音活动检测三元组音频识别装置文本数据格式策略序列语义逻辑