一种多格式文档智能有声内容生成系统及方法

申请号：CN202510206671

申请日期：2025-02-25

公开号：CN119724153A

公开日期：2025-03-28

类型：发明专利

摘要

本发明公开一种多格式文档智能有声内容生成系统及方法，涉及人工智能与音频生成技术领域；包括：步骤1：对用户上传的多种格式文档进行解析，生成结构化纯文本，步骤2：根据结构化纯文本的内容进行语义分析，识别纯文本中不同的情感色彩及语气特征，根据情感色彩及语气特征将纯文本转换为多角色的对话脚本，步骤3：调用文本转音频模型，为对话脚本的每段台词，生成对应角色的音频片段，步骤4：将音频流列表中音频片段按照台词顺序拼接合成为完整的音频文件；实现多格式文档内容的自动转换与多角色音频合成，且无需依赖云端服务，保障数据隐私并提升处理效率。

技术关键词

内容生成系统音频内容生成方法格式脚本可视化界面统一资源定位文本理解色彩分发模块输出模块列表语音标识参数生成技术语义标记