Stable Diffusion (SD)

利用法

オンライン

オフライン

Stability Matrixならば、複数のWebUIを管理し環境を構築できます。

WebUI

AUTOMATIC1111
ComfyUI
StableSwarmUI

2024/06/21以降、Stability AIによって管理されなくなっています。Stability-AI/StableSwarmUI: StableSwarmUI, A Modular Stable Diffusion Web-User-Interface, with an emphasis on making powertools easily accessible, high performance, and extensibility.

【Stable Diffusion】StableSwarmUIとは?インストール方法や基本的な使い方について - イクログ

SwarmUIへ引き継がれています。GitHub - mcmonkeyprojects/SwarmUI: SwarmUI (formerly StableSwarmUI), A Modular Stable Diffusion Web-User-Interface, with an emphasis on making powertools easily accessible, high performance, and extensibility.

Fooocus
【西川和久の不定期コラム】次世代Stable Diffusion(SDXL)をWindows上で一発で使用可能にする「Fooocus」 - PC Watch 西川和久 (2023/08/16)

モデル

2種類あります。

  • ベースモデル (Base Model)
  • 派生モデル (Derived Model)

Checkpoint (チェックポイント) とは、ベースモデルや派生モデルのファイルです。

ベースモデル (Base Model)

派生モデルの基盤となるモデルです。

バージョン 公開
1.1 2022/08
2.0 2022/11
XL 1.0 2023/07
3.0 2024/02

SD 1.5 (Stable Diffusion 1.5)

SDXL (Stable Diffusion XL)

Announcing SDXL 1.0 — Stability AI Stability AI、画像生成モデルSDXL 1.0をリリース、オープンモデルとして公開 | gihyo.jp (2023/07/27)

SD3 (Stable Diffusion 3)

Stable Diffusion 3 — Stability AI Stability AIが商用ライセンスを修正、最新モデル「SD3 Medium」が期待外れな品質だったことを認める - 窓の杜 石山裕規 (2024/07/08)

派生モデル (Derived / Fine-tuned Model)

ベースモデルを元に微調整した (Fine-tuned) モデルです。

モデルの入手

CivitaiではモデルのページのDownloadのアイコン「」からダウンロードできます。

Hugging Faceでは[Files and versions]タブを開き、拡張子が.safetensorsのファイルのDownloadのアイコンからダウンロードできます。Downloading models

ダウンロードしたファイルは、

  • Stability Matrixのチェックポイントならば、Models\StableDiffusion
  • TypeがLoRAならば、Models\Lora

に配置します。

サンプリング設定

項目 内容 作用
Sampling method どのアルゴリズムを使用するか 計算の仕方
Schedule type   ノイズ配分
Sampling steps 生成された画像を繰り返し改善する回数。値が高いほど時間がかかる。とても低い値では結果が悪くなる 繰り返し回数

Sampling method

SD1.5 / SD2.1 モデルでのサンプリングメソッドの比較 (Euler , DPM, DDIM, UniPC, LMS .....) - Stable Diffusion Tips | iPentec

Hires. fix

CFG Scale

CFG Scale (Classifier Free Guidance Scale) とは、画像がプロンプトにどれだけ強く従うべきかを指定します。この値が低いほど、より創造的な結果が得られます。

技術

構成要素

   
VAE  
U-Net 潜在表現を受け取り、そこから逆方向の拡散プロセス (ノイズを除去して画像を生成するプロセス) の何らかの段階で使われるノイズの残差の潜在表現を推測する
テキストエンコーダー Hugging Faceで公開されているStable Diffusion with Diffusersというドキュメントを基にした情報
「Stable Diffusion」でノイズから画像が生成される過程を確認しよう:Stable Diffusion入門(1/2 ページ) - @IT かわさきしんじ (2022/09/30)

潜在拡散モデル (latent diffusion model)

拡散モデル (diffusion model) をより効率的にしたものです。

拡散モデルと潜在拡散モデルはどちらも基本的な考え方は同じで、純粋なノイズから少しずつノイズを取り除いていくことで、最終的に何らかの画像を得るというものです。

誰もが知っておくべき画像生成AI「Stable Diffusion」の仕組みと使い方:Stable Diffusion入門 - @IT かわさきしんじ (2022/09/16)

高速化

  • TensorRT
  • SSD-1B
  • LCM (Latent Consistency Model for Stable Diffusion)
  • LCM LoRA (Latent Consistency Model LoRA)
【西川和久の不定期コラム】Stable Diffusion高速化の決定版登場!?品質落とさず制限もほぼなしで2~3倍速に - PC Watch 西川和久 (2023/11/20)