语音对话及声纹克隆方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
语音对话及声纹克隆方法、装置、设备及介质
申请号:CN202511228748
申请日期:2025-08-29
公开号:CN120877738A
公开日期:2025-10-31
类型:发明专利
摘要
本发明涉及语音合成技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了一种语音对话及声纹克隆方法、装置、设备及介质,包括:获取用户的语音输入数据,将所述语音输入数据转换为文本数据,利用预先训练的大语言模型根据所述文本数据生成回复文本,获取所述回复文本中每个文本Token所包含的隐藏状态,根据所述回复文本以及所述隐藏状态构建上下文感知序列,获取用户预先选取的声纹样本的声纹特征,利用预设的文本转语音模型根据所述上下文感知序列和所述声纹特征生成所述回复文本的梅尔频谱,将所述梅尔频谱转换为音频数据,得到回复音频,向用户得到并播放回复音频。提升了文本语音转换的效率和精准度。
技术关键词
文本 克隆方法 声纹特征 序列 感知线性预测 编码特征 梅尔频率倒谱系数 动态时间规整算法 音频特征 语音特征 特征提取模型 可读存储介质 波形 大语言模型 信号 医疗健康 数据获取模块
系统为您推荐了相关专利信息
审校方法 大语言模型 接收方 文本校正 周期
YOLOv3模型 图像分类方法 相邻椎间盘 影像 FCM聚类算法
生成产品 工具系统 输入模块 风格 文本
GIS隔离开关 分布参数模型 行程曲线 母线结构 辨识方法
卷积神经网络模型 交互系统 实时数据 音频 深度学习模型