摘要
本发明公开了一种依据文本生成多声源的双耳空间音频的方法及装置,其中的方法包括如下步骤:输入对音频的描述型文本或者参数型文本;采用大语言模型对描述型文本或者参数型文本进行预处理,生成包含声音事件、声音时长、声源位置信息和时序信息的结构性信息;利用扩散模型生成若干个与输入文本中声音事件、声音时长对应的单通道音频;采用双耳渲染模型将所有单通道音频渲染为与输入文本中声源位置信息相符的双耳音频;根据输入文本中各声源的时序信息将渲染得到的各个双耳音频合成为目标双耳音频。本发明可以在声源位置缺失时依据物理规律给出合理的声源方位,大大提高了文本转双耳空间音频的准确性。