バックナンバーはこちら
はじめに
本稿は「G検定対策 究極カンペをつくろう」シリーズ第8回である。前回は強化学習の基本(マルコフ性・価値関数・「状態-行動-報酬」のループ)を図解で整理し、要点を掴んだ。今回は一転して データ生成 を扱う。すなわち、AIが画像・音声・文章を生み出すための主要技術を体系的に整理する回である。
生成系の代表格として GAN と 拡散モデル(Diffusion) がある。名称は広く知られる一方で、「何が違うのか」「どのように動作するのか」が曖昧になりやすい。また、 NeRF による3D/新規視点生成や、 自己回帰言語モデル によるテキスト生成も、G検定の学習範囲として押さえておくべき重要テーマである。
本稿では、用語の暗記ではなく 因果関係で理解すること を重視する。すなわち、
- 何を作るか(タスク)
- どう作るか(モデル)
- なぜその設計なのか(学習のキー概念)
- どんなデータが要るか(データ要件)
- どう良し悪しを測るか(評価指標)
- どこで使われているか(応用事例)
を一連の地図として結び直す。取り上げるキーワードは、 GAN/DCGAN/Pix2Pix/CycleGAN/拡散モデル(DDPM 等)/NeRF/自己回帰言語モデル である。読了後には、「GANはなぜ“敵対的”なのか」「拡散モデルはなぜノイズを入れてから消すのか」「NeRFでカメラ姿勢がなぜ必須なのか」といった 理由 を説明できる状態を目指す。次章「説明内容」では、本記事のスコープと到達目標を明確にする。
動画シリーズ
G検定の究極カンペ関連動画の再生リスト
説明内容
本稿で達成すべき学習目標は以下の三点である。
- データ生成タスクの種類と概要を理解する。
- 代表的なデータ生成モデルを理解する(GAN、拡散モデル、NeRF、自己回帰言語モデル)。
- 生成モデルの実世界での活用法を理解する。
狙いは、用語の暗記ではなく、 タスク → モデル → 学習のキー概念 → データ要件 → 評価指標 → 応用 という因果で全体像を結ぶことである。読了時には、「目的に対してどのモデルを選ぶべきか」を自力で説明できる状態を目標とする。
本稿の範囲
- タスク:画像生成、文章生成、音声生成、画像⇔画像変換、3D/新規視点生成
- 代表的なモデル:GAN系モデル、拡散モデル、NeRF、自己回帰言語モデル
- 学習のキーコンセプトとデータ要件:対立損失、ノイズ付加と逆拡散、多視点整合と体積レンダリング、次トークン予測/ペア・非ペア、カメラ姿勢、コーパス規模、音声テキスト対応
- 評価指標と応用事例:FID/IS、BLEU/ROUGE、MOS、PSNR などの指標と、それに紐づく実務利用
章立て
- はじめに
- 説明内容(本章)
- タスク
- GAN系モデル
- 拡散モデル
- 3D生成(NeRF)
- 言語生成
- 学習のキーコンセプト
- データ要件
- 評価指標
- 応用事例
- まとめ
読み方と導線
- まず タスク で「何を作るか」の地図を掴む。
- 続く GAN系モデル と 拡散モデル で主要手法の設計思想を個別に把握する。章末にミニ比較を置き、総合比較は 学習のキーコンセプト で行う。
- 3D生成(NeRF)と言語生成 で画像以外の重要領域を押さえる。
- データ要件 で実務条件(ペア有無、撮影条件、コーパス品質と量)を整理し、 評価指標 で「良さをどう測るか」を定義する。
- 応用事例 で産業利用へ橋渡しし、まとめ で選定指針を再確認する。
学習方針
- 各章は独立に読めるが、因果関係図 を通して相互に接続される構成である。疑問の所在は次の対応で回収する。
- 「GANと拡散の違い」→ GAN系モデル/拡散モデル/学習のキーコンセプト
- 「NeRFでカメラ姿勢が必要な理由」→ データ要件
- 「品質評価の基準」→ 評価指標
- 実務を意識し、指標の限界(例:BLEU/ROUGEの意味範囲、FIDの解釈)と 人手評価の併用 にも触れる。
次章では、AIが生成しうるデータの種類を俯瞰し、以後のモデル解説の前提地図を整える。

タスク
本章では、生成AIが対象とするタスクの全体像を整理する。大別すると 画像生成/文章生成/音声生成/画像対画像変換(Image-to-Image)/3D視点生成 の五領域である。

画像生成
テキストや潜在ベクトルから新規画像を生成するタスクである。イラストや写真風画像の生成、超解像、インペインティング(欠損補完)などが含まれる。近年は拡散モデルの発展により、高解像・高忠実度の生成が一般化している。
文章生成
自己回帰言語モデルにより、与えられた文脈から自然言語テキストを生成するタスクである。質問応答、要約、翻訳、記事作成、コード補完など応用が広い。長文一貫性や事実整合性は追加の仕組み(RAG 等)で補強するのが実務的である。
音声生成
テキスト読み上げ(TTS)、声質変換、歌声合成など、音声波形を生成・変換するタスクである。自然性や抑揚制御の進展により、人手収録に迫る品質が実現しつつある。評価には主観評価(MOS)と客観指標の併用が一般的である。
画像対画像変換(Image-to-Image)
入力画像を別ドメインの画像へ変換するタスクである。代表例は 白黒→カラー、スケッチ→写真、スタイル転移 など。Pix2Pix は ペア画像必須 の条件付き変換を行い、CycleGAN は 非ペア データでも「A→B→A」に戻す サイクル一貫性 で学習を成立させる。実務ではデータ入手性(ペアの有無)がモデル選択を左右する。
3D視点生成
複数視点画像とカメラ姿勢からシーンの放射輝度場を推定し、未観測の視点画像を合成するタスクである。NeRF が代表的手法であり、AR/VR の没入体験、デジタルツイン、ロボット・自動運転のシミュレーション等に有用である。多視点データと正確なキャリブレーションが前提条件となる。
以上より、生成AIは作る対象(タスク)が多岐にわたり、前提データや評価指標 もタスクごとに異なる。本稿では続けて、これらタスクに対してどのようなモデルが適合するかを、「GAN系モデル」「拡散モデル」で順に検討する。



コメント