Stable Diffusion (SD)

利用法

オンライン

オフライン

Stability Matrixならば、複数のWebUIを管理し環境を構築できます。

WebUI

AUTOMATIC1111

AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI

ComfyUI

StableSwarmUI

2024/06/21以降、Stability AIによって管理されなくなっています。Stability-AI/StableSwarmUI: StableSwarmUI, A Modular Stable Diffusion Web-User-Interface, with an emphasis on making powertools easily accessible, high performance, and extensibility.

【Stable Diffusion】StableSwarmUIとは？インストール方法や基本的な使い方について - イクログ

SwarmUIへ引き継がれています。GitHub - mcmonkeyprojects/SwarmUI: SwarmUI (formerly StableSwarmUI), A Modular Stable Diffusion Web-User-Interface, with an emphasis on making powertools easily accessible, high performance, and extensibility.

Fooocus

【西川和久の不定期コラム】次世代Stable Diffusion(SDXL)をWindows上で一発で使用可能にする「Fooocus」 - PC Watch 西川和久 (2023/08/16)

モデル

2種類あります。

ベースモデル (Base Model)
派生モデル (Derived Model)

Checkpoint (チェックポイント) とは、ベースモデルや派生モデルのファイルです。

ベースモデル (Base Model)

派生モデルの基盤となるモデルです。

バージョン	公開
1.1	2022/08
2.0	2022/11
XL 1.0	2023/07
3.0	2024/02

SD 1.5 (Stable Diffusion 1.5)

SDXL (Stable Diffusion XL)

Announcing SDXL 1.0 — Stability AI Stability AI、画像生成モデルSDXL 1.0をリリース、オープンモデルとして公開 | gihyo.jp (2023/07/27)

SD3 (Stable Diffusion 3)

Stable Diffusion 3 — Stability AI Stability AIが商用ライセンスを修正、最新モデル「SD3 Medium」が期待外れな品質だったことを認める - 窓の杜石山裕規 (2024/07/08)

派生モデル (Derived / Fine-tuned Model)

ベースモデルを元に微調整した (Fine-tuned) モデルです。

モデルの入手

CivitaiではモデルのページのDownloadのアイコン「」からダウンロードできます。

Hugging Faceでは[Files and versions]タブを開き、拡張子が.safetensorsのファイルのDownloadのアイコンからダウンロードできます。Downloading models

ダウンロードしたファイルは、

Stability Matrixのチェックポイントならば、Models\StableDiffusion
TypeがLoRAならば、Models\Lora

に配置します。

サンプリング設定

項目	内容	作用
Sampling method	どのアルゴリズムを使用するか	計算の仕方
Schedule type		ノイズ配分
Sampling steps	生成された画像を繰り返し改善する回数。値が高いほど時間がかかる。とても低い値では結果が悪くなる	繰り返し回数

Sampling method

SD1.5 / SD2.1 モデルでのサンプリングメソッドの比較 (Euler , DPM, DDIM, UniPC, LMS .....) - Stable Diffusion Tips | iPentec

Hires. fix

CFG Scale

CFG Scale (Classifier Free Guidance Scale) とは、画像がプロンプトにどれだけ強く従うべきかを指定します。この値が低いほど、より創造的な結果が得られます。

技術

構成要素


VAE
U-Net	潜在表現を受け取り、そこから逆方向の拡散プロセス (ノイズを除去して画像を生成するプロセス) の何らかの段階で使われるノイズの残差の潜在表現を推測する
テキストエンコーダー	Hugging Faceで公開されているStable Diffusion with Diffusersというドキュメントを基にした情報

「Stable Diffusion」でノイズから画像が生成される過程を確認しよう：Stable Diffusion入門（1/2 ページ） - ＠IT かわさきしんじ (2022/09/30)

潜在拡散モデル (latent diffusion model)

拡散モデル (diffusion model) をより効率的にしたものです。

拡散モデルと潜在拡散モデルはどちらも基本的な考え方は同じで、純粋なノイズから少しずつノイズを取り除いていくことで、最終的に何らかの画像を得るというものです。

誰もが知っておくべき画像生成AI「Stable Diffusion」の仕組みと使い方：Stable Diffusion入門 - ＠IT かわさきしんじ (2022/09/16)

高速化

TensorRT
SSD-1B
LCM (Latent Consistency Model for Stable Diffusion)
LCM LoRA (Latent Consistency Model LoRA)

【西川和久の不定期コラム】Stable Diffusion高速化の決定版登場！？品質落とさず制限もほぼなしで2～3倍速に - PC Watch 西川和久 (2023/11/20)

参考

誰もが知っておくべき画像生成AI「Stable Diffusion」の仕組みと使い方：Stable Diffusion入門 - ＠IT かわさきしんじ (2022/09/16)