強化学習

G検定

G検定対策 究極カンペをつくろう#7 強化学習(マルコフ性、MDP、価値関数、目的関数、探索と行動選択、Q学習、SARSA、方策勾配、Actor-Critic)

理論基盤は マルコフ性 → マルコフ過程 → MRP → MDP → 誘導MRP の階段であり、MDP が中心モデルである。価値は V,Q,A と最適値 V^*,Q^*、目的関数は Jγ,Javg で、γ は未来重視度のノブである。探索と行動選択は ε-greedy/Softmax/UCB/Thompson/OFU を使い分け、実装は TD→SARSA/Q 学習、REINFORCE、Actor-Critic を軸に据えるべきである。
G検定

G検定 強化学習対策

G検定対策のまとめ記事はこちら。はじめにG検定の強化学習についての勉強方法を聞かれたんで、とりあえず記事にしてみた。正直、G検定の強化学習関連は情報も少なく、かなり学習し難いカテゴリになる。法律/最近の動向系と比べるとややマシとは言えるが、...