画像生成AIはどうやって学習するんですか?


画像生成AIの学習方法は、様々な手法がありますが、代表的なものとして以下のようなものがあります。


VAE(変分オートエンコーダ)
訓練データの特徴を捉えた「訓練データに似たデータ」を生成するモデルです。入力データを潜在変数に変換するエンコーダと、潜在変数から元画像を復元するデコーダからなります。潜在変数に確率分布を仮定することで、多様な画像を生成できます。


GAN(敵対的生成ネットワーク)
偽物のデータをランダムなノイズから作り出すジェネレータと、本物か偽物か判定するディスクリミネータからなります。ジェネレータとディスクリミネータが互いに競争しながら学習することで、高品質な画像を生成できます。


Pix2Pix
2つのペアの画像をもとに、画像間の関係を学習していくモデルです。例えば、ラフスケッチからカラーイラストや地図から航空写真などを生成できます。GANの拡張版であり、条件画像を利用することで画像〜画像への変換問題を扱っています。


TransGAN
畳み込みを用いることなくTransformerだけで画像を生成していくモデルです。Transformerは自然言語処理で高い性能を発揮していますが、画像生成にも応用できることが示されました。STL-10の画像生成において、CNNベースのGANを超える性能を示しています。


StyleGANスタイルや特徴量を制御しながら画像を生成するモデルです。顔や車や猫などの高解像度な画像を生成できます。GANの拡張版であり、スタイル変換や特徴量マッピングなどの工夫がされています。


以上のように、画像生成AIの学習方法は多岐にわたりますが、共通しているのは、訓練データからパターンや特徴を抽出し、それらを組み合わせて新しい画像を作り出すという点です。