摘要
本发明公开了一种基于多模态路由的自适应图像生成方法及系统,该方法包括:提取输入图像的多尺度特征,生成三类不同保留连续信息能力递增的token:将图像与对应的文本描述分别提取视觉和文本模态信息,融合后生成多模态信息摘要;将多模态信息摘要输入可学习的软路由器,基于图像复杂度标签动态选择token建模路径;采用三阶段训练策略优化模型;推理阶段根据输入文本描述和自回归Transformer预测的图像信息摘要,由训练好的软路由器动态选择token路径完成图像生成。本发明融合动态路由器和三种不同复杂度的量化与建模的策略,并通过软路由器模块在推理阶段实现动态建模路径选择。该方法在保证生成质量的前提下,有效提升了推理效率,展现出良好的高效性。