G検定対策 究極カンペをつくろう#7 強化学習(マルコフ性、MDP、価値関数、目的関数、探索と行動選択、Q学習、SARSA、方策勾配、Actor-Critic)

G検定対策 究極カンペをつくろう#7 強化学習(マルコフ性、MDP、価値関数、目的関数、探索と行動選択、Q学習、SARSA、方策勾配、Actor-Critic) G検定
G検定対策 究極カンペをつくろう#7 強化学習(マルコフ性、MDP、価値関数、目的関数、探索と行動選択、Q学習、SARSA、方策勾配、Actor-Critic)

バックナンバーはこちら

はじめに

本稿は「G検定対策 究極カンペをつくろう」シリーズ第7作目の内容を、ブログ用に再構成したものである。前回は DQN や PPO などの 深層強化学習 を概観し、アルゴリズムの進化と応用事例を幅広く確認した。一方で、それらを正しく位置づけるためには、まず 強化学習の土台となる基礎 を明確にしておく必要がある。

そこで本稿では、深層部分に踏み込む前段として、マルコフ決定過程(MDP)、価値関数、探索、 そして 基本アルゴリズム といった、G検定でも問われやすい基礎概念を整理する。読者が用語を個別に暗記するのではなく、 概念間のつながり を掴めるよう、動画と同様に 因果関係図 を手がかりとして解説を進める方針である。数式的な語彙が多く登場するが、図を介して全体像を俯瞰することで、学習の沼に迷い込むことなく、重要点を筋道立てて理解できるはずである。

動画シリーズ

G検定の究極カンペ関連動画の再生リスト

説明内容

本稿で解説する範囲は次の四点である。

  • 理論基盤(マルコフ性、MDP)
  • 価値関数・目的関数
  • 探索と行動選択
  • 代表的アルゴリズム(Q 学習、SARSA、方策勾配、Actor-Critic)

まず強調したいのは、 「マルコフ性」「マルコフ過程」「マルコフ決定過程(MDP)」は名称が似ているが別概念 である点である。三者は強く関連しつつも役割が異なるため、 関連づけて理解しつつ明確に識別する ことが重要である。本稿では、これらの概念の階層関係を 因果関係図 に対応づけ、用語の羅列ではなく“つながり”として把握できるように整理する。

この基礎を押さえることで、後続の 価値関数($V,Q,A$)や 目的関数($J$)、ならびに 探索戦略(ε-greedy、Softmax、UCB、Thompson、OFU) の位置づけが明快になり、最終的に Q学習/SARSA(価値ベース)・REINFORCE(方策ベース)・Actor-Critic(ハイブリッド) へと自然に接続できるようになるはずである。以降、理論基盤から順に、図を参照しながら要点を積み上げていく。

因果関係図全体

理論基礎

理論基礎

本節では、強化学習の数理モデルの土台を確認する。要点は マルコフ性 → マルコフ過程(DTMC) → マルコフ報酬過程(MRP) → マルコフ決定過程(MDP) → 誘導MRP の流れである。

マルコフ性

マルコフ性 とは、「次の状態は いま の状態のみに依存する」という性質である。履歴全体ではなく現在が十分統計量になる点が本質である。行動を明示しない場合の遷移は

$$
P(s^\prime|s)
$$

と表す。直感的には「今だけ見ればよい」という可換な簡約の効き目である。

マルコフ過程(DTMC)

マルコフ性を前提に、状態が時間とともに遷移する連鎖を マルコフ過程(離散時間マルコフ連鎖; DTMC) と呼ぶ。

$$
S_0\xrightarrow{P(s_1|s_0)}s_1\xrightarrow{P(s_2|s_1)}x_2\longrightarrow \dots
$$

ここでは報酬は未導入であり、「状態が推移する仕組み」をまず定式化する段階である。

マルコフ報酬過程(MRP)

DTMC に 報酬 を付与したものが MRP である。状態(あるいは遷移)に対して報酬を定義し、累積報酬の評価(後述の価値関数)へ橋渡しを行う。「ただ移動する」から「移動してご褒美を得る」に拡張した形である。

マルコフ決定過程(MDP)

さらに 行動 を導入した枠組みが MDP である。強化学習の中心モデルであり、定義は次の 5 要素の組で与える。

$$
\text{MDP} = \langle S,A, P, R, \gamma \rangle
$$

  • $P(s’|s,a)$:状態遷移確率
  • $R(s,a)$:報酬関数
  • $\gamma$:割引率
  • 行動選択ルールとして方策 $\pi(a|s)$ を用いる

ここで初めてエージェントが「どう動くか」を選択できるようになり、学習の対象が明確化する。

誘導MRP(MDPからの還元)

MDP において 方策 $\pi$ を固定すると、行動は確率的に定まるため、実質的に「状態と報酬だけの世界」へ還元できる。これを 誘導MRP と呼ぶ。
すなわち、

$$
MDP + \pi \Rightarrow MRP
$$

であり、「行動の自由」を封印した縛りプレイの比喩は本質を突いている。以降の価値関数の定義やベルマン方程式は、この誘導MRPの視点から導入すると整理が良い。

以上が理論基盤である。次節では、このモデル上で “価値”をどう定義するか($V,Q,A$ と目的関数$J$)を確認する。

価値関数・目的関数

本節では、強化学習における「評価」の枠組みを定義する。すなわち、状態や行動がどれほど良いか を数値化する関数群(価値関数)と、 方策そのものの良さ を測る目的関数である。式と直感を対にして把握することが肝要である。

価値関数・目的関数

状態価値関 $V^\pi(s)$

方策 $\pi$ に従うとき、状態 $s$ から得られる将来報酬の期待値である。

$$
V^\pi(s)=\mathbb{E}_\pi\bigg[\sum_{t=0}^\infty\gamma^t R_{t+1}\bigg|S_0=s\bigg]
$$

  • 「その状態にいること自体の良さ」を表す量である。
  • 将来報酬を割引率 $\gamma\in[0,1]$ で減衰させて合算する。

行動価値関数 $Q^\pi(s,a)$

状態 $s$ で行動 $a$ を選択し、その後 $\pi$ に従うときの将来報酬の期待値である。

$$
Q^\pi(s,a)=\mathbb{E}_\pi\bigg[\sum_{t=0}^\infty\gamma^t R_{t+1}\bigg|S_0=s,A_0=a\bigg]
$$

  • 行動まで含めて評価するため、行動選択 の比較に直接用いられる。

アドバンテージ $A^\pi(s,a)$

行動が状態平均よりどれほど良いかを示す差分である。

$$
A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)
$$

  • 「その一手が平均よりどれだけ上ぶれるか」という直感で捉えると良い。

最適価値関数

最適方策を前提にした価値である。

$$
V^*(s)=\max_\pi V^\pi(x),\ \ \ Q^*(s,a)=\max_\pi Q^\pi(s,a)
$$

  • 以降の学習アルゴリズムは、この最適値(あるいはそれに到達する方策)を目指す。

目的関数(方策の良さ)

方策 $\pi$ 自体の評価尺度であり、学習のターゲットである。

期待割引和 $J_\gamma(\pi)$

$$
J_\gamma(\pi)=\mathbb{E}_\pi\bigg[\sum_{t=0}^\infty\gamma^t R_{t+1}\bigg]
$$

  • エピソード型では $\gamma=1$ も選択可能である。
  • 継続タスクでは通常 $\gamma<1$ として将来を割り引く。

平均報酬 J_{\text{avg}}(\pi)

$$
J_{\text{avg}}(\pi)=\lim_{n\to\infty}\frac{1}{n}\mathbb{E}_\pi\bigg[\sum_{t=0}^{n-1}\gamma^t R_{t+1}\bigg]
$$

  • 定常的な長期運用を想定する指標であり、割引率を用いない 点が特徴である。

受験上の要点

  • $V,Q,A$ の役割分担を明確化すること(状態のみ/行動込み/差分)である。
  • 最適価値 $V^*,Q^*$ は「最良方策の下での価値」であり、推定対象として頻出である。
  • 目的関数の二系統(割引和と平均報酬)の違いと、$\gamma$ の意味(未来重視度のノブ)を取り違えないことが重要である。

以上で「価値をどう定義し、何を最大化するか」の枠組みが整う。次節では、この枠組みの上で 探索と行動選択 をどのように設計するかを述べる。

次のページへ

コメント

タイトルとURLをコピーしました