こんにちは。
今回は話題の画像生成AI「ステーブルディフィジョン」についてご紹介します。
ステーブルディフィジョンとは、テキスト入力されたワードからAIが自動で画像を生成する、オープンソースの画像生成AIサービスです。
2022年に公開されたディープラーニングのtext-to-imageモデルで、潜在拡散というアルゴリズムを実装したものです。
このサービスを使えば、自分の思い通りのイラストを簡単に作ることができます。例えば、「美しい風景」や「かわいい猫」、「魔法少女」などと入力するだけで、こんな画像が生成されます。
ステーブルディフィジョンがどんな画像を生成できるかは分かりましたが、その仕組みはどうなっているのでしょうか。
ステーブルディフィジョンは、潜在拡散(latent diffusion)と呼ばれるアルゴリズムを実装したモデルです。
潜在拡散とは、「純粋なノイズから少しずつノイズを取り除いていくことで、最終的に何らかの画像を得る」という考え方です。
このアルゴリズムは、その前身ともいえる拡散モデル(diffusion model)と呼ばれるモデルをより効率的にしたものです。
拡散モデルは、DALL・EやImagenなどの他の画像生成AIも採用しています。
ステーブルディフィジョンを使うには、呪文(プロンプト)と呼ばれるテキストを入力する必要があります。
呪文とは、「描きたい画像の内容や特徴を表す単語や文章」です。
例えば、「美しい風景」や「かわいい猫」、「魔法少女」などです。
呪文を入力すると、ステーブルディフィジョンはその意味やニュアンスを理解して、それに応じた画像を生成します。
呪文の書き方によって、生成される画像の質や雰囲気が変わります。呪文の工夫やコツについては後ほど詳しく説明します。
ステーブルディフィジョンを使う方法は大きく分けて2種類あります。
一つは、ネット上にあるサービスを利用する方法です。
これは気軽に試せる方法で、低スペックのパソコンでも可能です。
ただし、使い始めるまで簡単ですが、生成枚数や機能に制限がかかる場合があります。
もう一つは、自分のパソコン(ローカル環境)で使う方法です。
これは本格的に取り組みたい人向けの方法で、無料で無制限に利用できます。