摘要
本发明涉及语音语义技术领域,可应用于金融科技及医疗健康等业务系统平台中,揭露了一种语义协同虚拟主播视频生成方法、装置、设备及介质,所述方法包括:获取虚拟主播模板视频,对虚拟主播模板视频的每帧图像中动作和文本之间的关联特征进行分析,得到图像关联特征,获取初始用户文本,识别初始用户文本的多维文本情感,利用多维文本情感对初始用户文本进行内容扩展,得到更新用户文本,利用更新用户文本生成用户文本音频,将图像关联特征、更新用户文本和用户文本音频进行加权融合,得到虚拟主播特征,利用虚拟主播特征对虚拟主播模板视频进行更新,得到虚拟主播完整视频。本发明可以有效提高虚拟主播视频中文本、音频和虚拟主播动作的一致性。