G検定 G検定対策 究極カンペをつくろう#7 強化学習(マルコフ性、MDP、価値関数、目的関数、探索と行動選択、Q学習、SARSA、方策勾配、Actor-Critic)
理論基盤は マルコフ性 → マルコフ過程 → MRP → MDP → 誘導MRP の階段であり、MDP が中心モデルである。価値は V,Q,A と最適値 V^*,Q^*、目的関数は Jγ,Javg で、γ は未来重視度のノブである。探索と行動選択は ε-greedy/Softmax/UCB/Thompson/OFU を使い分け、実装は TD→SARSA/Q 学習、REINFORCE、Actor-Critic を軸に据えるべきである。