一种依据文本生成多声源的双耳空间音频的方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种依据文本生成多声源的双耳空间音频的方法及装置
申请号:CN202510413478
申请日期:2025-04-03
公开号:CN120199227A
公开日期:2025-06-24
类型:发明专利
摘要
本发明公开了一种依据文本生成多声源的双耳空间音频的方法及装置,其中的方法包括如下步骤:输入对音频的描述型文本或者参数型文本;采用大语言模型对描述型文本或者参数型文本进行预处理,生成包含声音事件、声音时长、声源位置信息和时序信息的结构性信息;利用扩散模型生成若干个与输入文本中声音事件、声音时长对应的单通道音频;采用双耳渲染模型将所有单通道音频渲染为与输入文本中声源位置信息相符的双耳音频;根据输入文本中各声源的时序信息将渲染得到的各个双耳音频合成为目标双耳音频。本发明可以在声源位置缺失时依据物理规律给出合理的声源方位,大大提高了文本转双耳空间音频的准确性。
技术关键词
双耳音频 文本 多声源 大语言模型 时序 短时傅里叶变换 声源特征 信号处理方法 傅立叶 参数 生成工具 多分辨率 处理器 声道 语音 计算机设备 输入模块 可读存储介质