扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定
7376点击    2026-05-17 11:14

扩散模型(Diffusion Models)横扫图像与视频生成的今天,ControlNet、LoRA、IP-Adapter等工具,早已成了创作者和开发者工作流里的标配。但繁荣背后,一个越来越让人头疼的问题浮出水面:模型生态,太“碎”了。


相信不少开发者都踩过这样的坑:好不容易跑通一个新模型,想加个控制功能,一看代码结构——完全不兼容;想一次性叠加多个控制条件,结果插件之间在底层“打架”,特征层冲突不断。现在的Diffusion插件生态,更像是一堆需要手工“打补丁”的孤岛。每次拼接,都在考验开发者的耐心和底层功底。


如果能像大语言模型(LLM)使用MCP、Skills等标准化插件机制一样,让Diffusion模型也具备即插即用的通用联结方式,AI创作的效率和自由度,会不会迎来一次彻底的爆发?


近期,专为Diffusion模型设计的插件框架——Diffusion Templates正式开源发布。这个框架能大幅降低可控生成技术的训练和使用难度,让开发者能够通过丰富的Templates来精准控制模型的生成结果。


以图像编辑为例,通过叠加不同的Template,可以实现对同一画面的多维控制:


  • 使用第一个Template进行图像编辑,把画面风格改为二次元动漫风格
  • 使用第二个Template进行局部重绘,让周围环境保持不变
  • 使用第三个Template进行亮度调节,适当调高亮度保证画面明亮且清晰


输入:

扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定



   输出:


扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定


二次元的猫猫出现在了三次元的世界


再来看另外一个例子,这是一只模糊的猫猫,可以用两个Template提升画面的清晰度:


  • 使用第一个Template进行超分辨率,渲染出高分辨率的图像
  • 使用第二个Template进行锐利激发,提升画面细节的清晰度


使用第二个Template进行锐利激发,提升画面细节的清晰度


输入:

扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定



输出:


扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定


两个以不同目标训练的模型协同渲染提升画面质量


像搭积木一样组合模型


Diffusion Templates是一套完善的Diffusion模型插件框架,在这个框架中,每一个插件被称为Template,它可以像模板一样引导模型,模型发挥自身的生成能力向模板中填充信息,最终生成清晰的画面内容。框架的结构如下图所示:


扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定


Diffusion Template框架结构


Diffusion Template框架包含以下模块设计:


  • Template Input:Template模型的输入,其中的字段由每个Template模型自身决定,为模型开发者提供最大限度的开发自由度。
  • Template Model:Template模型,可从魔搭模型库加载或从本地路径加载,让模型的使用简单易用。
  • Template Cache:Template模型的输出,也是基础模型Diffusion Pipeline的输入,因此其中包含的字段是Diffusion Pipeline的输入参数的子集。
  • Template Pipeline:用于调度多个Template模型的模块,该模块负责加载Template模型、整合多个Template模型的输出。


其中Template Cache是最核心的框架概念,魔搭社区团队在其中设计了一些模型能力媒介格式,例如KV-Cache等,Template模型通过Template Cache将信息传递给基础模型,对生成内容进行控制。


为了方便开发者快速了解Diffusion Templates,魔搭社区团队基于FLUX.2-klein-base-4B,训练了11个覆盖多个场景的Template模型,并将这些模型一并开源。每个Template模型存储在独立的模型仓库中,保证插件与基础框架解耦,同时方便开发者适配。


扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定


目前,Diffusion Templates框架的代码已在DiffSynth-Studio项目下完全开源。


扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定


本次开源的代码也包含了模型的训练,团队希望通过这个框架,大幅降低可控生成模型的训练门槛,让模型开发者们能够更方便地探索新奇的模型技术,一起构建丰富的开源模型生态,为AI技术发展添砖加瓦!


模型一览


以下是本次开源的11个Template模型,这些模型基于基础模型FLUX.2-klein-base-4B训练,能够为这一基础模型提供各种可控生成能力,这些Template模型与FLUX.2-klein-base-4B的LoRA和微调版本也是兼容的。未来团队会基于这一框架提供更多基础模型的Templates。


1. 亮度调节


模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Brightness


精准控制画面的光照强度,从柔和的晨光到强烈的逆光,随心所欲。

扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定


2. 结构控制


模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-ControlNet


类似ControlNet的功能,通过输入参考图对生成图像的空间结构、物体轮廓与透视关系进行精准引导,让创作更加可控。


扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定


3. 超分辨率


模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Upscaler


将低分辨率图像升级为高清大图,在保持原有构图和语义的基础上,智能重绘并补充丰富的细节纹理。


扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定

4. 锐利激发


模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Sharpness


提升画面锐利度与清晰度,可与超分辨率模型叠加使用,获得更加清晰的视觉效果。


扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定


5. 图像编辑


模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Edit


基于自然语言指令,对图像中的特定物体、动作或属性进行精准修改。与主流图像编辑模型不同,本模型采用KV-Cache传递输入图像信息,推理速度显著提升。


扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定


6. 美学对齐


模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Aesthetic


通过调整美学参数,优化图像的美学评分,让生成结果更符合人类审美偏好。


扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定


7. 局部重绘


模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Inpaint


输入原图和遮罩图,仅在遮罩区域内重新生成新内容,实现精准的局部编辑。


扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定


8. 年龄控制


模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Age


在生成人像时灵活控制人物年龄,从稚嫩孩童到沧桑老者,一键切换。

扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定


9. 色调调节


模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-SoftRGB


自由调整画面色调与色彩氛围,营造温暖、冷峻等不同的视觉风格。


扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定


10. 内容参考


模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-ContentRef


参考输入图像的风格、构图等特征,生成具有相似特质的新画面,实现风格迁移与内容复用。


扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定

11. 魔性熊猫


模型链接:https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-PandaMeme


这是一个彩蛋模型,能够生成各种魔性十足的熊猫头表情包。


扩散模型也有「Skills」了!魔搭开源11个现成模板,风格、修图、超清一键搞定


相关链接


项目主页:https://modelscope.github.io/diffusion-templates-web/

开源代码:https://github.com/modelscope/DiffSynth-Studio

技术报告:https://arxiv.org/abs/2604.24351

模型集(含11个模型):https://modelscope.cn/collections/DiffSynth-Studio/KleinBase4B-Templates

数据集(含17个数据集):https://modelscope.cn/collections/DiffSynth-Studio/ImagePulseV2


文章来自于微信公众号 “量子位”,作者 “量子位”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner