一种融合多模态特征的编码器架构优化方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种融合多模态特征的编码器架构优化方法及系统
申请号:CN202510109645
申请日期:2025-01-23
公开号:CN120088346B
公开日期:2025-07-22
类型:发明专利
摘要
本发明提供一种融合多模态特征的编码器架构优化方法及系统,涉及数据处理技术领域,所述方法包括:训练过程中动态调整宫格数量,并允许同一合成图像内子图的大小不完全相同,以提升模型对不同粒度patch token的处理能力,并将其推广到视频编码;推理阶段,将多个任务请求对应的子图(子视频)合成为一张大图像(大视频)输入模型,通过分组注意力机制为每组子图(子视频)生成CLS token,与文本编码器输出的向量计算余弦相似度,并对所有组的损失取平均作为最终结果。本发明提升了不同尺度多模态特征融合的效果并极大的提高了模型推理的速度。
技术关键词
融合多模态特征 编码器架构 注意力机制 文本编码器 动态 图像编码器 多模态特征融合 分辨率 文本特征向量 遗传算法 词嵌入模型 音频 样本 视频