基于多粒度对齐的文本和视频的相似度计算方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多粒度对齐的文本和视频的相似度计算方法及系统
申请号:CN202411522201
申请日期:2024-10-29
公开号:CN119577184B
公开日期:2025-09-12
类型:发明专利
摘要
本发明公开了基于多粒度对齐的文本和视频的相似度计算方法及系统。通过深入分析文本和视频包含的层级特征,设计由粗到细的多粒度对齐框架,从而实现更精细化、更准确的语义匹配。特别是在细粒度对齐方面,通过对文本的词级特征和视频的块级特征进行聚合,以获得文本的短语级特征与视频的物体级特征,基于这两个特征实现文本与视频的细粒度对齐,使得细粒度语义对齐更加合理,从而有效地解决文本视频检索存在的细节信息缺失和跨模态语义差距的问题。
技术关键词
视频 文本编码器 对齐模块 度计算方法 细粒度特征 损失函数计算方法 交叉注意力机制 物体 信息熵 矩阵 亲和力 Softmax函数 数据 序列 三元组 时序 特征提取模块 语义