- テキストエンコーダ:入力されたテキストを低次元のベクトルに変換する部分です。ベクトルはテキストの意味や画像の内容を表す数字の列です。
- 画像生成器:テキストエンコーダから得られたベクトルを画像に変換する部分です。画像生成器はニューラルネットワークで構成され、入力データの分布を近似しています。
テキストエンコーダと画像生成器は、それぞれ異なる技術やモデルを用いて実装されています。例えば、Stable Diffusionという画像生成AIでは、以下のような技術やモデルが使われています。
- VAE(変分オートエンコーダ):ピクセル画像を潜在的な画像埋め込み表現に変換するために使われる技術です。
- CLIP(Contrastive Language-Image Pre-training):テキストと画像の関連性を学習したモデルで、テキストエンコーダとして使われます。
- U-Net(Unet):画像処理によく使われるニューラルネットワークの一種で、画像生成器として使われます。