基于语义通信的视频传输方法、装置、设备、介质及程序
申请号:CN202410909894
申请日期:2024-07-08
公开号:CN118890492A
公开日期:2024-11-01
类型:发明专利
摘要
本申请公开了一种基于语义通信的视频传输方法、装置、设备、介质及程序,视频发送端获取自然语言指令和视频采集帧,通过多态目标跟踪模型和多态理解模型,基于自然语言指令对视频采集帧中特定的目标及目标的行为状态进行跟踪,基于目标的跟踪预测结果和时序预测结果生成语义文本信息,以基于语义文本信息生成视频。根据本申请实施例,通过提供特定事件自然语言指令,即可得到需要关注、跟踪的目标对象在视频下的跟踪预测结果和行为时序预测结果,从而完成对视频关注对象的实时完整描述,为恢复视频提供准确有效的语义文本信息,有效减少恢复视频产生的幻觉现象。
技术关键词
视频传输方法
自然语言
注意力模型
视频接收端
语义
计算机程序指令
时序
视频传输装置
多头注意力机制
文本
发送端
计算机程序产品
电子设备
解码器
网络结构
编码器
可读存储介质