一种基于双通道稀疏蒸馏的多模态模型轻量化方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于双通道稀疏蒸馏的多模态模型轻量化方法
申请号:CN202510366527
申请日期:2025-03-26
公开号:CN120197666A
公开日期:2025-06-24
类型:发明专利
摘要
本发明公开了一种基于双通道稀疏蒸馏的多模态模型轻量化方法,包含五个核心步骤:连接预训练视觉编码器与语言模型,构建混合专家架构;通过特征映射和跨模态注意力实现视觉‑语言特征初步对齐;设计双通道知识迁移,显式通道用自适应KL散度对齐师生模型输出分布,隐式通道通过跨模态注意力适配器迁移特征知识;通过构建正负样本对训练集推理优化训练,指导学生模型学习区分高质量和低质量输出;推理部署时动态选择Top‑k专家,通过路由权重加权聚合专家输出。本发明在保持模型表达能力的同时显著降低计算开销,参数量降低约60%,在跨模态理解任务上准确率提升5%以上,在边缘设备上推理延迟控制在300ms以内。
技术关键词
轻量化方法 蒸馏 交互注意力 适配器 Softmax函数 跨模态 教师 学生 置信度阈值 样本 多层感知机 训练集 通道 视觉 矩阵 语义 网络 基础 机制