摘要
本发明提供一种融合多模态特征的编码器架构优化方法及系统,涉及数据处理技术领域,所述方法包括:训练过程中动态调整宫格数量,并允许同一合成图像内子图的大小不完全相同,以提升模型对不同粒度patch token的处理能力,并将其推广到视频编码;推理阶段,将多个任务请求对应的子图(子视频)合成为一张大图像(大视频)输入模型,通过分组注意力机制为每组子图(子视频)生成CLS token,与文本编码器输出的向量计算余弦相似度,并对所有组的损失取平均作为最终结果。本发明提升了不同尺度多模态特征融合的效果并极大的提高了模型推理的速度。