一种复杂场景下中文文本生成语义级音频方法及系统

申请号：CN202510811039

申请日期：2025-06-17

公开号：CN120783722A

公开日期：2025-10-14

类型：发明专利

摘要

本发明属于人工智能技术领域，公开了一种复杂场景下中文文本生成语义级音频方法，该方法包括：收集中文文本描述和音频数据；构建数据集；数据增强；初步训练；微调；评估优化。本发明在中文文本生成音频领域表现出色，能够更准确地生成符合中文文本描述的音频，特别是在处理复杂的多音源混合和先后顺序音频生成时，具有显著的优势。

技术关键词

中文文本语义向量音频编码器文本编码器预训练语言模型数据多任务生成机制人工智能技术模块生成系统样本场景参数信号