Stable Diffusionと他の画像生成手法との違いは、以下のような点が挙げられます。
- Stable Diffusionは、拡散モデルという画像生成のための深層学習の手法を用いています。
拡散モデルは、学習元の画像に連続的に付与されたガウシアンノイズを除去する目的で学習されており、デノイジング・オートエンコーダのシーケンスとして考えることが可能です。
この手法は、学習と生成のための計算効率が高いという利点があります 。
- Stable Diffusionは、潜在拡散モデルという拡散モデルの一種を使用しています。
潜在拡散モデルは、画像をピクセル空間からより低次元の潜在空間へと圧縮し、画像のより基本的な意味を捕らえることができます。
圧縮された潜在表現には、順方向拡散過程の際にガウシアンノイズが連続的に付与され、逆方向拡散過程の際にデノイズされます。
この過程は、文字列・画像・その他のモダリティによって柔軟に条件づけることが可能です。
- Stable Diffusionは、LAION-5Bというインターネット上から収集された50億枚の画像とテキストのペアから学習しています。
このデータセットは、Stability AIから資金提供を受けているドイツの非営利団体LAIONによって作成されたものであり、一般に利用可能です 。
このデータセットは、解像度やウォーターマークを含んでいる可能性の尤度や「美学スコア」の予測に基づいて別々のデータセットにフィルタリングされています。
以上がStable Diffusionと他の画像生成手法との違いです。
Stable Diffusionは、拡散モデルや潜在拡散モデルなど、最新の深層学習技術を駆使して高品質な画像を生成することができる画像生成AIです。