扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

8047点击 2026-05-17 11:14

在扩散模型（Diffusion Models）横扫图像与视频生成的今天，ControlNet、LoRA、IP-Adapter等工具，早已成了创作者和开发者工作流里的标配。但繁荣背后，一个越来越让人头疼的问题浮出水面：模型生态，太“碎”了。

相信不少开发者都踩过这样的坑：好不容易跑通一个新模型，想加个控制功能，一看代码结构——完全不兼容；想一次性叠加多个控制条件，结果插件之间在底层“打架”，特征层冲突不断。现在的Diffusion插件生态，更像是一堆需要手工“打补丁”的孤岛。每次拼接，都在考验开发者的耐心和底层功底。

如果能像大语言模型（LLM）使用MCP、Skills等标准化插件机制一样，让Diffusion模型也具备即插即用的通用联结方式，AI创作的效率和自由度，会不会迎来一次彻底的爆发？

近期，专为Diffusion模型设计的插件框架——Diffusion Templates正式开源发布。这个框架能大幅降低可控生成技术的训练和使用难度，让开发者能够通过丰富的Templates来精准控制模型的生成结果。

以图像编辑为例，通过叠加不同的Template，可以实现对同一画面的多维控制：

使用第一个Template进行图像编辑，把画面风格改为二次元动漫风格
使用第二个Template进行局部重绘，让周围环境保持不变
使用第三个Template进行亮度调节，适当调高亮度保证画面明亮且清晰

输入：

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

输出：

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

△二次元的猫猫出现在了三次元的世界

再来看另外一个例子，这是一只模糊的猫猫，可以用两个Template提升画面的清晰度：

使用第一个Template进行超分辨率，渲染出高分辨率的图像
使用第二个Template进行锐利激发，提升画面细节的清晰度

使用第二个Template进行锐利激发，提升画面细节的清晰度

输入：

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

输出：

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

△两个以不同目标训练的模型协同渲染提升画面质量

像搭积木一样组合模型

Diffusion Templates是一套完善的Diffusion模型插件框架，在这个框架中，每一个插件被称为Template，它可以像模板一样引导模型，模型发挥自身的生成能力向模板中填充信息，最终生成清晰的画面内容。框架的结构如下图所示：

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

△Diffusion Template框架结构

Diffusion Template框架包含以下模块设计：

Template Input:Template模型的输入，其中的字段由每个Template模型自身决定，为模型开发者提供最大限度的开发自由度。
Template Model:Template模型，可从魔搭模型库加载或从本地路径加载，让模型的使用简单易用。
Template Cache:Template模型的输出，也是基础模型Diffusion Pipeline的输入，因此其中包含的字段是Diffusion Pipeline的输入参数的子集。
Template Pipeline:用于调度多个Template模型的模块，该模块负责加载Template模型、整合多个Template模型的输出。

其中Template Cache是最核心的框架概念，魔搭社区团队在其中设计了一些模型能力媒介格式，例如KV-Cache等，Template模型通过Template Cache将信息传递给基础模型，对生成内容进行控制。

为了方便开发者快速了解Diffusion Templates，魔搭社区团队基于FLUX.2-klein-base-4B，训练了11个覆盖多个场景的Template模型，并将这些模型一并开源。每个Template模型存储在独立的模型仓库中，保证插件与基础框架解耦，同时方便开发者适配。

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

目前，Diffusion Templates框架的代码已在DiffSynth-Studio项目下完全开源。

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

本次开源的代码也包含了模型的训练，团队希望通过这个框架，大幅降低可控生成模型的训练门槛，让模型开发者们能够更方便地探索新奇的模型技术，一起构建丰富的开源模型生态，为AI技术发展添砖加瓦！

模型一览

以下是本次开源的11个Template模型，这些模型基于基础模型FLUX.2-klein-base-4B训练，能够为这一基础模型提供各种可控生成能力，这些Template模型与FLUX.2-klein-base-4B的LoRA和微调版本也是兼容的。未来团队会基于这一框架提供更多基础模型的Templates。

1. 亮度调节

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Brightness

精准控制画面的光照强度，从柔和的晨光到强烈的逆光，随心所欲。

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

2. 结构控制

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-ControlNet

类似ControlNet的功能，通过输入参考图对生成图像的空间结构、物体轮廓与透视关系进行精准引导，让创作更加可控。

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

3. 超分辨率

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Upscaler

将低分辨率图像升级为高清大图，在保持原有构图和语义的基础上，智能重绘并补充丰富的细节纹理。

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

4. 锐利激发

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Sharpness

提升画面锐利度与清晰度，可与超分辨率模型叠加使用，获得更加清晰的视觉效果。

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

5. 图像编辑

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Edit

基于自然语言指令，对图像中的特定物体、动作或属性进行精准修改。与主流图像编辑模型不同，本模型采用KV-Cache传递输入图像信息，推理速度显著提升。

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

6. 美学对齐

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Aesthetic

通过调整美学参数，优化图像的美学评分，让生成结果更符合人类审美偏好。

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

7. 局部重绘

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Inpaint

输入原图和遮罩图，仅在遮罩区域内重新生成新内容，实现精准的局部编辑。

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

8. 年龄控制

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-Age

在生成人像时灵活控制人物年龄，从稚嫩孩童到沧桑老者，一键切换。

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

9. 色调调节

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-SoftRGB

自由调整画面色调与色彩氛围，营造温暖、冷峻等不同的视觉风格。

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

10. 内容参考

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-ContentRef

参考输入图像的风格、构图等特征，生成具有相似特质的新画面，实现风格迁移与内容复用。

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

11. 魔性熊猫

模型链接：https://modelscope.cn/models/DiffSynth-Studio/Template-KleinBase4B-PandaMeme

这是一个彩蛋模型，能够生成各种魔性十足的熊猫头表情包。

扩散模型也有「Skills」了！魔搭开源11个现成模板，风格、修图、超清一键搞定

相关链接

项目主页：https://modelscope.github.io/diffusion-templates-web/

开源代码：https://github.com/modelscope/DiffSynth-Studio

技术报告：https://arxiv.org/abs/2604.24351

模型集（含11个模型）：https://modelscope.cn/collections/DiffSynth-Studio/KleinBase4B-Templates

数据集（含17个数据集）：https://modelscope.cn/collections/DiffSynth-Studio/ImagePulseV2

文章来自于微信公众号 “量子位”，作者 “量子位”

关键词: AI新闻 , Diffusion Templates , 模型训练 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner