ディープラーニングのテクニック その4

はじめに
深層強化学習
1. 強化学習
2. 深層強化学習
深層生成モデル
1. 生成タスクアプローチ
2. 画像生成モデル
まとめ

はじめに

ディープラーニングの合わせ技のようなものが存在。
それらについて記載する。

深層強化学習

強化学習

教師あり学習、教師なし学習以外に強化学習と呼ばれる分野も存在する。
強化学習とは「行動を学習する仕組み」になる。
教師あり学習と混同し易いが、一連の行動系列の結果としての報酬を最大とするように学習する。
明確な答えがあるわけではない。
教師あり学習よりも状態を如何に定義できるか、如何に行動を定義できるかが重要且つ難解。

深層強化学習

2013年DeepMind社がCNNと強化学習によりブロック崩しを実現。
ここで用いられた手法は強化学習のQ学習(Q learning)とディープラーニングを組み合わせていることから、DQN(Deep Q-Network)と呼ばれ、これ以降は以下の改良版モデルが研究される。

Double DQN
Dueling Network
Categorical DQN
Rainbow

これらの成果から深層強化学習の研究が活発となった。
2015年～2017年に再びDeepMind社のAlphaGo(アルファ碁)が世界チャンピオンを打ち破る。
AlphaGoもCNNを用いており、打つ手筋はモンテカルロ木探索を使用している。
また、囲碁の棋譜を全く使用せず、自己対局のみで学習していくAlphaGo ZeroがAlphaGoを超える強さとなる。

深層生成モデル

生成タスクアプローチ

最近のディープラーニングは認識、識別タスク以外に生成タスクにも応用されている。
生成タスクは大きく2種類。

データを元に、新しいデータを生成
- 識別モデルの延長
  - 音声生成
    - WaveNet
データそのものを生成
- 生成モデル
  - 画像生成モデル
    - ディープラーニングを組み合わせて深層生成モデル

画像生成モデル

深層生成モデルの研究に大きく2種類のモデルがある。

変分オートエンコーダ(Variational AutoEncoder:VAE)
- オートエンコーダの応用
- 圧縮ではなく統計分布に変換
  - 平均と分散をパラメータとしている。
敵対的生成ネットワーク(Generative Adversarial Network:GAN)
- 2種類のネットワークで構成
  - ジェネレータ(Generator)
    - ランダムベクトルから画像生成
  - ディスクリミネータ(Discriminator)
    - 画像が本物かジェネレータが生成した偽物かを見破る
  - 上記2種類のネットワークを競わせて精度を大幅に引き上げる
- 実際のCNNを利用したモデル名はDCGAN(Deep Convolutional GAN)