一种依据文本生成多声源的双耳空间音频的方法及装置

申请号：CN202510413478

申请日期：2025-04-03

公开号：CN120199227A

公开日期：2025-06-24

类型：发明专利

摘要

本发明公开了一种依据文本生成多声源的双耳空间音频的方法及装置，其中的方法包括如下步骤：输入对音频的描述型文本或者参数型文本；采用大语言模型对描述型文本或者参数型文本进行预处理，生成包含声音事件、声音时长、声源位置信息和时序信息的结构性信息；利用扩散模型生成若干个与输入文本中声音事件、声音时长对应的单通道音频；采用双耳渲染模型将所有单通道音频渲染为与输入文本中声源位置信息相符的双耳音频；根据输入文本中各声源的时序信息将渲染得到的各个双耳音频合成为目标双耳音频。本发明可以在声源位置缺失时依据物理规律给出合理的声源方位，大大提高了文本转双耳空间音频的准确性。

技术关键词

双耳音频文本多声源大语言模型时序短时傅里叶变换声源特征信号处理方法傅立叶参数生成工具多分辨率处理器声道语音计算机设备输入模块可读存储介质