Diffussion | Notion

【他山之石】Stable Diffusion 万字长文详解稳定扩散模型-腾讯云开发者社区-腾讯云 (tencent.com)

Stable Diffusion 这个模型架构是由 Stability AI 公司推于2022年8月由 CompVis、Stability AI 和 LAION 的研究人员在 Latent Diffusion Model 的基础上创建并推出的。

其实 Stable Diffusion 本身并不是一个模型，而是一个由多个模块和模型组成的系统架构，它由三大核心部件组成，每个组件都是一个神经网络系统，也称为三大基础模型：

1. CLIPText 用于文本编码，使文本数字化：

Input：输入文本（提示词 Prompt）；
Output：77 token embeddings vectors，每个 token 向量有 768 个维度；

2. U-Net + Scheduler 用于逐步处理/扩散被转化到潜空间中的信息：

Input：文本嵌入和由噪点组成的起始多维矩阵（是一种结构化的数字列表，也称为张量 Tensor）；
Output：处理后的信息矩阵；

3. AutoEncoder Decoder （主要是一个VAE：Variational AutoEncoder ）使用处理后的信息矩阵解码绘制出最终图像，把潜空间的运算结果解码成实际图片维度：

Input：处理后的信息矩阵，维度：4, 64, 64；
Output：生成的图像，维度：3, 512, 512 即 RGB三个通道、和两维像素尺寸。

实际上我们经常说的“Diffusion 扩散”过程并不是 Diffusion 模型的生图过程，而它的反向过程，即反扩散过程，才是真正的生图过程，下面会详细讲解。

生图的过程发生在图中粉红色的部分，即图像信息创建器（Image Information Creator）组件中。这部分同时包含了两个输入，见下图：①从文本编码器（ CLIPText模型）输出过来的 Token embeddings 矩阵（图中蓝色网格），和②随机的初始化图像信息矩阵，即潜空间的噪点图（图中透明网格），然后经过图像信息创建器（Image Information Creator）处理后输出③处理过的潜空间图像信息矩阵（图中粉色网格），最终交给图像解码器来绘制成图像。

U-Net的内部结构，主要由残差网络（ResNet）组成

现在让我们加入文本 embedding 向量。此时，在 U-Net 内部可以看到（下图）：

在每一个残差网络 ResNet 模块后面加入了一个 Attention 模块（Attention 模块可以在 Transformer 的介绍中详细了解到：这个可能是对Transformer最通俗易懂的解读了！），作为一种文本调节机制（Text Conditioning）把输入进来的 token embedding 融入到每一个处理阶段中；
在每一个处理阶段中，Attention 模块将这些文本特征合并到 Latent 潜空间的数据中，发往下一个残差 ResNet 模块。然后下一个残差 ResNet 模块在处理的数据中就包括了更多的文本信息了。也就是说 Diffusion 的反向生图过程就掺入了指定语义的文本信息了。U-Net 将按照文本的语义信息来进行噪点的逐步去除工作。

于是，最终生成的图像就是我们通过提示词可以控制的图像了。