说话人分离方法、装置、设备以及存储介质

申请号：CN202510846094

申请日期：2025-06-23

公开号：CN120727025A

公开日期：2025-09-30

类型：发明专利

摘要

本公开提供了一种说话人分离方法，涉及人工智能技术领域，具体涉及语音识别、自然语言处理、大语言模型等技术领域。该方法包括：将待分离视频切分为多个场景片段，分别提取多个场景片段的字幕信息和字幕信息对应的字幕时间轴；根据字幕时间轴提取场景片段的音频特征以及人脸特征；分别对音频特征和人脸特征进行聚类，根据聚类结果生成场景片段对应的场景分离结果；合并多个场景片段对应的场景分离结果，得到待分离视频对应的说话人分离结果。该方法提升了说话人分离结果的准确性，进而提升了用户对视频文件进行二次创作的效率和准确性。

技术关键词

字幕人脸特征音频特征聚类视频大语言模型语义特征提取模块人工智能技术生成场景计算机程序产品字符识别处理器通信自然语言指令