G検定対策究極カンペをつくろう#8 データ生成(CycleGAN, DCGAN, Diffusion Model, NeRF, Pix2Pix, 音声生成, 画像生成, GAN, 文章生成)

バックナンバーはこちら

はじめに
動画シリーズ
説明内容
タスク
次のページへ

はじめに

本稿は「G検定対策究極カンペをつくろう」シリーズ第8回である。前回は強化学習の基本（マルコフ性・価値関数・「状態-行動-報酬」のループ）を図解で整理し、要点を掴んだ。今回は一転して データ生成 を扱う。すなわち、AIが画像・音声・文章を生み出すための主要技術を体系的に整理する回である。

生成系の代表格として GAN と 拡散モデル（Diffusion） がある。名称は広く知られる一方で、「何が違うのか」「どのように動作するのか」が曖昧になりやすい。また、 NeRF による3D／新規視点生成や、 自己回帰言語モデル によるテキスト生成も、G検定の学習範囲として押さえておくべき重要テーマである。

本稿では、用語の暗記ではなく 因果関係で理解すること を重視する。すなわち、

何を作るか（タスク）
どう作るか（モデル）
なぜその設計なのか（学習のキー概念）
どんなデータが要るか（データ要件）
どう良し悪しを測るか（評価指標）
どこで使われているか（応用事例）

を一連の地図として結び直す。取り上げるキーワードは、 GAN／DCGAN／Pix2Pix／CycleGAN／拡散モデル（DDPM 等）／NeRF／自己回帰言語モデル である。読了後には、「GANはなぜ“敵対的”なのか」「拡散モデルはなぜノイズを入れてから消すのか」「NeRFでカメラ姿勢がなぜ必須なのか」といった理由を説明できる状態を目指す。次章「説明内容」では、本記事のスコープと到達目標を明確にする。

動画シリーズ

G検定の究極カンペ関連動画の再生リスト

G検定対策究極カンペの作り方

G検定究極カンペの作り方というか、カンペに頼らない自分自身の作り方

説明内容

本稿で達成すべき学習目標は以下の三点である。

データ生成タスクの種類と概要を理解する。
代表的なデータ生成モデルを理解する（GAN、拡散モデル、NeRF、自己回帰言語モデル）。
生成モデルの実世界での活用法を理解する。

狙いは、用語の暗記ではなく、 タスク → モデル → 学習のキー概念 → データ要件 → 評価指標 → 応用 という因果で全体像を結ぶことである。読了時には、「目的に対してどのモデルを選ぶべきか」を自力で説明できる状態を目標とする。

本稿の範囲

タスク：画像生成、文章生成、音声生成、画像⇔画像変換、3D／新規視点生成
代表的なモデル：GAN系モデル、拡散モデル、NeRF、自己回帰言語モデル
学習のキーコンセプトとデータ要件：対立損失、ノイズ付加と逆拡散、多視点整合と体積レンダリング、次トークン予測／ペア・非ペア、カメラ姿勢、コーパス規模、音声テキスト対応
評価指標と応用事例：FID/IS、BLEU/ROUGE、MOS、PSNR などの指標と、それに紐づく実務利用

章立て

はじめに
説明内容（本章）
タスク
GAN系モデル
拡散モデル
3D生成（NeRF）
言語生成
学習のキーコンセプト
データ要件
評価指標
応用事例
まとめ

読み方と導線

まず タスク で「何を作るか」の地図を掴む。
続く GAN系モデル と 拡散モデル で主要手法の設計思想を個別に把握する。章末にミニ比較を置き、総合比較は 学習のキーコンセプト で行う。
3D生成（NeRF）と言語生成 で画像以外の重要領域を押さえる。
データ要件 で実務条件（ペア有無、撮影条件、コーパス品質と量）を整理し、 評価指標 で「良さをどう測るか」を定義する。
応用事例 で産業利用へ橋渡しし、まとめ で選定指針を再確認する。

学習方針

各章は独立に読めるが、因果関係図 を通して相互に接続される構成である。疑問の所在は次の対応で回収する。
- 「GANと拡散の違い」→ GAN系モデル／拡散モデル／学習のキーコンセプト
- 「NeRFでカメラ姿勢が必要な理由」→ データ要件
- 「品質評価の基準」→ 評価指標
実務を意識し、指標の限界（例：BLEU/ROUGEの意味範囲、FIDの解釈）と 人手評価の併用 にも触れる。

次章では、AIが生成しうるデータの種類を俯瞰し、以後のモデル解説の前提地図を整える。

タスク

本章では、生成AIが対象とするタスクの全体像を整理する。大別すると 画像生成／文章生成／音声生成／画像対画像変換（Image-to-Image）／3D視点生成 の五領域である。

画像生成

テキストや潜在ベクトルから新規画像を生成するタスクである。イラストや写真風画像の生成、超解像、インペインティング（欠損補完）などが含まれる。近年は拡散モデルの発展により、高解像・高忠実度の生成が一般化している。

文章生成

自己回帰言語モデルにより、与えられた文脈から自然言語テキストを生成するタスクである。質問応答、要約、翻訳、記事作成、コード補完など応用が広い。長文一貫性や事実整合性は追加の仕組み（RAG 等）で補強するのが実務的である。

音声生成

テキスト読み上げ（TTS）、声質変換、歌声合成など、音声波形を生成・変換するタスクである。自然性や抑揚制御の進展により、人手収録に迫る品質が実現しつつある。評価には主観評価（MOS）と客観指標の併用が一般的である。

画像対画像変換（Image-to-Image）

入力画像を別ドメインの画像へ変換するタスクである。代表例は 白黒→カラー、スケッチ→写真、スタイル転移 など。Pix2Pix は ペア画像必須 の条件付き変換を行い、CycleGAN は 非ペア データでも「A→B→A」に戻す サイクル一貫性 で学習を成立させる。実務ではデータ入手性（ペアの有無）がモデル選択を左右する。

3D視点生成

複数視点画像とカメラ姿勢からシーンの放射輝度場を推定し、未観測の視点画像を合成するタスクである。NeRF が代表的手法であり、AR/VR の没入体験、デジタルツイン、ロボット・自動運転のシミュレーション等に有用である。多視点データと正確なキャリブレーションが前提条件となる。

以上より、生成AIは作る対象（タスク）が多岐にわたり、前提データや評価指標 もタスクごとに異なる。本稿では続けて、これらタスクに対してどのようなモデルが適合するかを、「GAN系モデル」「拡散モデル」で順に検討する。