说话人分离方法、装置、设备以及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
说话人分离方法、装置、设备以及存储介质
申请号:CN202510846094
申请日期:2025-06-23
公开号:CN120727025A
公开日期:2025-09-30
类型:发明专利
摘要
本公开提供了一种说话人分离方法,涉及人工智能技术领域,具体涉及语音识别、自然语言处理、大语言模型等技术领域。该方法包括:将待分离视频切分为多个场景片段,分别提取多个场景片段的字幕信息和字幕信息对应的字幕时间轴;根据字幕时间轴提取场景片段的音频特征以及人脸特征;分别对音频特征和人脸特征进行聚类,根据聚类结果生成场景片段对应的场景分离结果;合并多个场景片段对应的场景分离结果,得到待分离视频对应的说话人分离结果。该方法提升了说话人分离结果的准确性,进而提升了用户对视频文件进行二次创作的效率和准确性。
技术关键词
字幕 人脸特征 音频特征 聚类 视频 大语言模型 语义 特征提取模块 人工智能技术 生成场景 计算机程序产品 字符识别 处理器通信 自然语言 指令