一种基于多模态路由的自适应图像生成方法及系统

申请号：CN202511124539

申请日期：2025-08-12

公开号：CN121010865A

公开日期：2025-11-25

类型：发明专利

摘要

本发明公开了一种基于多模态路由的自适应图像生成方法及系统，该方法包括：提取输入图像的多尺度特征，生成三类不同保留连续信息能力递增的token：将图像与对应的文本描述分别提取视觉和文本模态信息，融合后生成多模态信息摘要；将多模态信息摘要输入可学习的软路由器，基于图像复杂度标签动态选择token建模路径；采用三阶段训练策略优化模型；推理阶段根据输入文本描述和自回归Transformer预测的图像信息摘要，由训练好的软路由器动态选择token路径完成图像生成。本发明融合动态路由器和三种不同复杂度的量化与建模的策略，并通过软路由器模块在推理阶段实现动态建模路径选择。该方法在保证生成质量的前提下，有效提升了推理效率，展现出良好的高效性。

技术关键词

图像生成方法多模态信息策略优化模型文本软路由器阶段摘要解码器复杂度多层感知机动态图像生成系统视觉特征预训练语言模型多尺度特征提取标签