语义协同虚拟主播视频生成方法、装置、设备及介质

申请号：CN202510448207

申请日期：2025-04-10

公开号：CN120201261A

公开日期：2025-06-24

类型：发明专利

摘要

本发明涉及语音语义技术领域，可应用于金融科技及医疗健康等业务系统平台中，揭露了一种语义协同虚拟主播视频生成方法、装置、设备及介质，所述方法包括：获取虚拟主播模板视频，对虚拟主播模板视频的每帧图像中动作和文本之间的关联特征进行分析，得到图像关联特征，获取初始用户文本，识别初始用户文本的多维文本情感，利用多维文本情感对初始用户文本进行内容扩展，得到更新用户文本，利用更新用户文本生成用户文本音频，将图像关联特征、更新用户文本和用户文本音频进行加权融合，得到虚拟主播特征，利用虚拟主播特征对虚拟主播模板视频进行更新，得到虚拟主播完整视频。本发明可以有效提高虚拟主播视频中文本、音频和虚拟主播动作的一致性。

技术关键词

文本视频生成方法语义协同音频图像面部特征点生成用户模板关键点注意力语音语义技术噪声样本情感特征坐标编码向量视频生成装置矩阵处理器