口播视频生成方法、装置、设备及存储介质

申请号：CN202510007175

申请日期：2025-01-02

公开号：CN119835491A

公开日期：2025-04-15

类型：发明专利

摘要

本申请公开了一种口播视频生成方法、装置、设备及存储介质，涉及计算机技术领域，公开的方法包括：接收口播音频样本以及当前文本内容；通过初始人物模型对口播音频样本进行学习，以生成与口播音频样本的音色对应的目标人物模型；通过目标人物模型基于当前文本内容生成口播视频。由于本申请通过利用初始人物模型对口播音频样本进行学习的方式来生成与口播音频样本的音色对应的目标人物模型，因此，相较于现有技术基于文本只能生成默认风格音色的口播视频，本申请通过口播音频样本能够实现对对初始人物模型的音色进行调整，从而能够满足用户需求，有效提高了用户使用体验。

技术关键词

人物模型视频生成方法音色特征音频样本文本人物特征视频生成设备视频生成装置数据接收模块处理器可读存储介质指令存储器风格参数计算机

系统为您推荐了相关专利信息

一种光伏短期发电功率组合预测方法、系统、设备及介质

组合预测方法长短期记忆网络天气场景聚类算法

基于多层次期望提升准则的多保真度贝叶斯优化方法

多层次保真度约束数据累积分布函数概率密度函数

基于LSTM-CBAM的音视频同步人脸视频生成方法

视频生成方法生成对抗式网络音视频 MFCC算法人脸图像信息

基于知识图谱和群智能协同的矿山灾害应急联动模型和预警决策系统

矿山灾害决策系统专家知识库图谱数据融合平台

一种基于视觉语言模型的半监督医学图像分割方法、系统

医学图像分割方法文本编码器医学图像数据集视觉图像嵌入