结合深度学习的音视频对象智能跟踪优化方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
结合深度学习的音视频对象智能跟踪优化方法及系统
申请号:CN202511430903
申请日期:2025-10-09
公开号:CN120892764B
公开日期:2025-12-30
类型:发明专利
摘要
本申请涉及音视频处理技术领域,提供一种结合深度学习的音视频对象智能跟踪优化方法及系统。本申请中,通过获取同步的音视频数据组,对音频流与视频帧序列执行跨模态特征协同提取,生成包含音频时域动态特征与视频空间结构特征的多模态特征集;将多模态特征集输入预训练的关联增强网络生成跨模态语义对齐的关联特征序列;基于关联特征序列构建跟踪稳定性评估模型,输出稳定性指标;根据稳定性指标动态调整跟踪参数并校准初始跟踪结果,输出优化后的跟踪轨迹。由此,本申请通过深度融合音视频双模态特征,挖掘模态间的内在关联,结合动态评估与校准机制,提升了复杂场景下对象跟踪的精度与稳定性。
技术关键词
跟踪优化方法 空间结构特征 音视频 视频运动特征 视频帧 特征模板 上下文特征 运动向量 序列 机器可读存储介质 跨模态 多模态特征 语义 音频特征 对象跟踪 纹理分布特征