摘要
本申请提出一种文生图模型的动态优化方法、系统和存储介质。该方法解析文生图模型以识别子模型组件并确定执行顺序,预计算各组件加载至 GPU 显存的静态权重;在多维运行参数下通过前向计算测得各组件的显存峰值并生成运行时显存查询表;推理时按执行顺序依次调度组件,在当前组件完成前向计算后,依据静态权重与运行时显存查询表对下一待执行组件实施预加载或按需卸载以更新 GPU 显存中已加载组件集合。原理上通过静态权重与实测峰值的联合判定实现显存按需调度;效果上可降低单次推理的 GPU 显存峰值占用,降低内存溢出风险并提升在有限显存设备上的部署与运行能力。