一种基于方言语音生成图片的方法及装置

申请号：CN202510807611

申请日期：2025-06-17

公开号：CN120612921A

公开日期：2025-09-09

类型：发明专利

摘要

本发明公开了一种基于方言语音生成图片的方法及装置。其中，方法包括：通过多模态特征融合模型提取待处理方言语音的声学特征；基于预先构建的方言语音词典查找声学特征对应的方言，生成待处理方言语音的方言文本；根据预先构建的方言语义网络对方言文本进行映射，得到方言文本对应的标准化普通话文本；提取标准化普通文本的关键词；采用预先构建的语义驱动生成模型对提取的关键词进行图像元素组合，生成待处理方言语音对应的图片。

技术关键词

文本交互式学习声学特征多模态特征融合语音关键词语义图片词典模型更新网络机制子模块表达式电子设备处理器基础元素可读存储介质