Stable Diffusion 模型技术架构与原理

Yanjun — Mon, 31 Jul 2023 12:08:24 +0000

Stable Diffusion 是一个文本到图像（txt2img）的潜在扩散模型（LDM），是由 CompVis、Stability AI 和 LAION 的研究人员实现并开源的。我们站在 Stable Diffusion 模型应用用户的角度来看，其实没有多么复杂，核心就是根据文本生成图像，其中可以通过一些技巧，或通过调整用户参数，来改变文本生成图像的过程，从而达到优化最终生成图像的目的。但是，从 Stable Diffusion 底层技术的角度看，这个过程非常非常复杂，所以我们这里先给出模型的 Architecture Overview，先从总体上看整个架构（或结构）是什么样的，然后深入到每一个部分去了解具体的技术细节和原理。 1 模型架构概览从 High-level 的视角，Stable Diffusion 模型都包含哪些主要组件，以及整体的处理流程，我们引用了 The Illustrated Stable Diffusion 一文中的一个图，并在原图上做了微小改动（为了方便理解添加了表示三个核心步骤的数字序号），来表示 Stable Diffusion 模型的处理机制，如下图所示：基于上图，我们分步骤描述一下 txt2image 处理的整个过程：首先，输入 Prompt 提示词 “para

简单之美 » Tag » Stable Diffusion

Stable Diffusion 模型技术架构与原理