一种基于多模态路由的自适应图像生成方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于多模态路由的自适应图像生成方法及系统
申请号:CN202511124539
申请日期:2025-08-12
公开号:CN121010865A
公开日期:2025-11-25
类型:发明专利
摘要
本发明公开了一种基于多模态路由的自适应图像生成方法及系统,该方法包括:提取输入图像的多尺度特征,生成三类不同保留连续信息能力递增的token:将图像与对应的文本描述分别提取视觉和文本模态信息,融合后生成多模态信息摘要;将多模态信息摘要输入可学习的软路由器,基于图像复杂度标签动态选择token建模路径;采用三阶段训练策略优化模型;推理阶段根据输入文本描述和自回归Transformer预测的图像信息摘要,由训练好的软路由器动态选择token路径完成图像生成。本发明融合动态路由器和三种不同复杂度的量化与建模的策略,并通过软路由器模块在推理阶段实现动态建模路径选择。该方法在保证生成质量的前提下,有效提升了推理效率,展现出良好的高效性。
技术关键词
图像生成方法 多模态信息 策略优化模型 文本 软路由器 阶段 摘要 解码器 复杂度 多层感知机 动态 图像生成系统 视觉特征 预训练语言模型 多尺度特征提取 标签