摘要
本发明实施例涉及视频传输技术领域,具体公开了基于语义流的实时高保真视频传输的多模态方法。本发明实施例通过接收多帧视频序列,通过时空压缩器提取空间和时间相关性,输出潜在表示;通过语义翻译器,将潜在表示映射到语义空间,逐步转化视觉特征和文本特征;通过预设的Transformer融合模型,将潜在表示和文本特征进行多模态融合,输出融合表示;通过预设的码本模型,将融合表示量化为量化表示;通过视频控制网,对量化表示和文本特征进行处理,生成重构视频序列。能够显著提高压缩效率,且实现对关键语义信息的优先级传输,从而在带宽受限条件下保持高效压缩和感知相关性,并能够确保视频内容语义一致性和时间连贯性。