摘要
本发明公开了一种基于双通道稀疏蒸馏的多模态模型轻量化方法,包含五个核心步骤:连接预训练视觉编码器与语言模型,构建混合专家架构;通过特征映射和跨模态注意力实现视觉‑语言特征初步对齐;设计双通道知识迁移,显式通道用自适应KL散度对齐师生模型输出分布,隐式通道通过跨模态注意力适配器迁移特征知识;通过构建正负样本对训练集推理优化训练,指导学生模型学习区分高质量和低质量输出;推理部署时动态选择Top‑k专家,通过路由权重加权聚合专家输出。本发明在保持模型表达能力的同时显著降低计算开销,参数量降低约60%,在跨模态理解任务上准确率提升5%以上,在边缘设备上推理延迟控制在300ms以内。