強化学習

数値計算

日本の「詰め込み教育」は本当に悪か?──高校教育をAIの強化学習メタファーと報酬設計の視点から読み解く

日本の高校教育はなぜ「詰め込み」「暗記偏重」と言われるのか。本記事では、AIの強化学習(greedy方策・ε-greedy・UCB)と報酬設計の視点から、日本の教育構造と暗記教育のメリット・課題、そして高校生・教師・AI好きの読者が今日から実践できる現実的な改善のヒントを整理する。
G検定

G検定対策 究極カンペをつくろう#7 強化学習(マルコフ性、MDP、価値関数、目的関数、探索と行動選択、Q学習、SARSA、方策勾配、Actor-Critic)

理論基盤は マルコフ性 → マルコフ過程 → MRP → MDP → 誘導MRP の階段であり、MDP が中心モデルである。価値は V,Q,A と最適値 V^*,Q^*、目的関数は Jγ,Javg で、γ は未来重視度のノブである。探索と行動選択は ε-greedy/Softmax/UCB/Thompson/OFU を使い分け、実装は TD→SARSA/Q 学習、REINFORCE、Actor-Critic を軸に据えるべきである。
G検定

G検定 強化学習対策

G検定対策のまとめ記事はこちら。はじめにG検定の強化学習についての勉強方法を聞かれたんで、とりあえず記事にしてみた。正直、G検定の強化学習関連は情報も少なく、かなり学習し難いカテゴリになる。法律/最近の動向系と比べるとややマシとは言えるが、...