G検定に数学は不要？強化学習・ロジスティック回帰・正則化を数式で理解するメリット

Q: G検定に数学は本当に不要ですか？

高度な計算問題を解くための数学は必須ではありません。ただし、数式を読めると概念の位置関係が明確になり、曖昧な選択肢を切り分けやすくなります。

Q: G検定で数式理解が特に役立つ分野はどこですか？

強化学習、ロジスティック回帰、sigmoidとsoftmaxの使い分け、マルチクラス分類とマルチラベル分類の違い、勾配降下法、バックプロパゲーション、正則化などで特に有効です。

Q: sigmoidとsoftmaxはどう使い分ければよいですか？

sigmoidは二値分類や各ラベルを独立に扱うマルチラベル分類と相性がよく、softmaxは複数候補のうち1つを選ぶマルチクラス分類と相性がよいです。

Q: 勾配降下法では重みは傾きの方向に更新されますか？

損失を最小化する勾配降下法では、重みは勾配そのものの方向ではなく、勾配と逆の方向に更新されます。式では w ← w - η∇L(w) と表されます。

Q: L1正則化とL2正則化の違いは何ですか？

L1正則化は重みの絶対値和を罰則として加え、不要な重みを0にしやすい性質があります。L2正則化は重みの二乗和を罰則として加え、重み全体をなめらかに小さくする方向に働きます。

G検定は数学必須の試験ではない
ただし数式理解は、用語同士の位置関係を固定する強い補助線になる
とくに「最も適切な説明を選べ」では、数式がそのまま判断基準になる

合わせて読むことおすすめの記事
解説動画
G検定に数学は不要と言われる理由
G検定で数式理解が有利になる理由
数理的な理解を使わないなら、別の手段で曖昧さを埋める必要がある
強化学習は数式理解が最も効きやすい分野
sigmoid と softmax は「知っているのに解けない」を生みやすい論点
ロジスティック回帰・sigmoid・softmax・マルチラベル分類を数式でつなぐ
交差エントロピーは「何を罰しているか」が数式で見える
勾配降下法とバックプロパゲーションは「傾きの方向」で引っかかりやすい
正則化は図より数式の方が安全
数式を知っていると解きやすい例題
1. 例題1 Q学習
2. 例題2 ロジスティック回帰・sigmoid・softmax・マルチラベル分類
3. 例題3 勾配降下法
4. 例題4 正則化
FAQ
1. G検定に数学は本当に不要ですか？
2. G検定で数式理解が特に役立つ分野はどこですか？
3. sigmoid と softmax はどう使い分ければよいですか？
4. 勾配降下法では重みは傾きの方向に更新されますか？
5. L1正則化とL2正則化の違いは何ですか？
参考文献
まとめ
まず1冊、G検定全体を押さえる本
強化学習をちゃんと腹落ちさせる本
ロジスティック回帰・損失関数・正則化の地図をつかむ本
sigmoid・softmax・誤差逆伝播をつなげて理解する本
数式がしんどい人向けの補助線になる本
迷ったときの選び方

合わせて読むことおすすめの記事

G検定まとめ記事

G検定2026対策完全ガイド｜合格体験・勉強法・カンペ作成・700問無料問題集

G検定（JDLAディープラーニングジェネラリスト検定）の2025年版対策ガイドです。合格体験にもとづく勉強法、最新シラバス対応のカンペの作り方、700問の無料問題集、法律・強化学習の特化対策まで、独学でも合格を目指せる情報をまとめました。

ニューラルネットワークをG検定知識で読み解く

G検定×実務の最短ブリッジで学ぶニューラルネット入門エッセンシャル（決定境界・活性化・logits損失・最適化）

G検定の頻出コア（決定境界・活性化・交差エントロピー・逆伝播・最適化）を、実務の定石であるlogits前提の損失（BCEWithLogitsとsoftmax交差エントロピーは同型の安定化）へ最短でつなぎます。数式とPythonは補足なので読み飛ばしOKです。

上記をかなりガッチリ気味に解説

ニューラルネット入門（シグモイドで基礎をつなぐ）：決定境界→逆伝播→BCEWithLogitsLoss→最適化をNumPyで

シグモイドで基礎をつなぎ、決定境界の可視化→誤差逆伝播→BCEWithLogitsLoss（logaddexp）→最適化までをNumPyの最小コードで解説します。logが「自信満々の誤り」を強く罰する理由、勾配チェックで逆伝播を検証する方法、AdamWとL2正則化の違い、pos_weightによる不均衡データ対応、NumPyの式がPyTorch APIに一致する最短ブリッジもまとめます。

解説動画

※ 近日(5/1中)公開

G検定に数学は不要と言われる理由

「G検定に数学は不要」とよく言われます。
これはたしかに事実です。G検定は、高度な計算問題を解く試験ではなく、AI・機械学習・ディープラーニングの概念理解を問う試験だからです。

JDLA公式のG検定案内
https://www.jdla.org/certificate/general/

JDLA公式のシラバス公開ページ
https://www.jdla.org/download-category/syllabus/

ただし、「G検定で数学の知識がなくても問題ない」と受け取ると、少し違ってきます。
実際には、強化学習、ロジスティック回帰、sigmoid、softmax、勾配降下法、正則化のような分野では、自然言語だけで理解すると概念の位置関係が曖昧になりやすく、「知っている言葉しか並んでいないのに、何を言っているのか分からない」という状態に陥りがちです。

とくにG検定では、「最も適切な説明を選べ」という形式で、一部正しいがズレている選択肢と、より正確な選択肢を見分ける力が問われやすいです。
ここで有効なのが数式です。数式を知っていると、入力、出力、更新対象、目的が明確になり、曖昧な選択肢を切りやすくなります。

本記事では、G検定において数学が必須ではない理由を押さえたうえで、なぜ数式理解が強化学習やロジスティック回帰、sigmoid と softmax の使い分け、正則化の理解に役立つのかを整理します。
あわせて、数式を知っていると解きやすい例題と、数式が苦手な場合に表や図で補う考え方も紹介します。

G検定で数式理解が有利になる理由

G検定で厄介なのは、完全に間違っている選択肢よりも、一部は正しいが焦点がずれている選択肢です。
このタイプの問題では、日本語だけで暗記していると、どこがずれているのかを言い切りにくくなります。

一方で、数式を押さえていると、次の4点がはっきりします。

入力
出力
更新対象
最小化または最大化の対象

この4点が見えると、「だいたい合っている説明」と「位置づけまで正しい説明」の差が見えやすくなります。
G検定では、この差がそのまま正誤に直結しやすいです。

数理的な理解を使わないなら、別の手段で曖昧さを埋める必要がある

数式は、図や表よりも情報圧縮が強く、概念同士の関係を短く正確に表せます。
そのため、理解の補助線としては非常に有効です。

ただし、どうしても数式が苦手な人もいるでしょう。
その場合は、無理に数式へ寄せるのではなく、表や図を使って入力・出力・更新対象・目的の位置関係を固定する対策を取る方が現実的です。

大事なのは、数式を使うかどうかではなく、曖昧になりやすい概念同士の関係を、何らかの方法で固定することです。
本記事は数式をベースに説明していますが、表で整理し直すという観点で読んでも、十分に活用できる内容になっています。

強化学習は数式理解が最も効きやすい分野

強化学習は、自然言語だけで追うとかなり難解になりやすい分野です。
とくにQ学習は、日本語の説明だけだと「価値を更新する」「報酬を最大化する」までは分かっても、何を見て何を更新しているのかが曖昧になりやすいです。

しかし、更新式を見ると一気に整理できます。

$$
Q(s,a)\leftarrow Q(s,a)+\alpha \left[r+\gamma \max_{a’}Q(s’,a’)-Q(s,a)\right]
$$

この式から分かることは明確です。

更新対象は $Q(s,a)$
$\alpha$ は学習率
$\gamma$ は割引率
直後の報酬 $r$ だけでなく、次状態 $s’$ での価値も見ている
方策そのものを直接更新しているわけではない

この位置関係が見えていると、選択肢の細かなズレに対応しやすくなります。
たとえば「Q値は行動確率を表す」「$\alpha$ は割引率である」「Q学習は方策を直接確率分布として更新する」といった誤答は、数式を見るとかなり切りやすくなります。

強化学習は、「数学がなくても雰囲気で覚えられる分野」ではなく、「数式があると概念の位置づけが固定される分野」と見た方が安全です。

sigmoid と softmax は「知っているのに解けない」を生みやすい論点

テキストや問題集では、sigmoid や softmax は活性化関数として紹介されることが多いです。
たとえば、グラフの形、出力範囲、あるいは sigmoid は誤差逆伝播で不利になりやすい、といった説明です。

この説明自体は間違っていません。
ただし、G検定の問題では、そこで終わらないことがあります。

実際には、ロジスティック回帰と絡めて、sigmoid や softmax がどのような役割で使われるかを問われることがあります。
ここで厄介なのは、問題文や選択肢に書かれている用語自体はどれも見覚えがあるのに、文全体として何を言っているのか分からなくなりやすいことです。

その理由は、学習段階では別カテゴリで覚えているからです。
ロジスティック回帰は機械学習の概要として学び、sigmoid や softmax はディープラーニングの概要や活性化関数として学ぶことが多いです。
しかし設問では、これらが同じ文脈で平然と混ぜて問われます。

自然言語だけで覚えていると、頭の中では次のように断片化しやすいです。

sigmoid は活性化関数
softmax も活性化関数
ロジスティック回帰は分類手法

もちろん、どの言葉も知っています。
しかし、それぞれの役割と関係がつながっていないと、「知っている単語しか出ていないのに、何を言っているのか分からない」という状態になります。

ここで効くのが数式です。
数式を見ると、それぞれが「どんな問題設定で」「何を出力するために」使われているのかが一気に整理されます。

ロジスティック回帰・sigmoid・softmax・マルチラベル分類を数式でつなぐ

ロジスティック回帰の基本形は次の通りです。

$$
p(y=1|x)=\sigma(w^{\top}x+b)
$$

$$
\sigma(z)=1/(1+\exp(-z))
$$

この式を見ると、sigmoid は単に「ディープラーニングで出てくる活性化関数」ではなく、二値分類において出力を確率として解釈するための関数として使われていることが分かります。

つまり、ロジスティック回帰と sigmoid は別々の話ではありません。
ロジスティック回帰の出力を確率として扱うために、sigmoid がそのまま登場しています。

一方、多クラス分類では次のように softmax を使います。

$$
p(k)=\exp(z_k)/\sum_j \exp(z_j)
$$

この式では、複数クラスに対する出力全体をまとめて確率分布にしています。
そのため、各クラス確率の総和は 1 になります。

ここまで見えると、次の違いがはっきりします。

sigmoid は1つの値を 0 から 1 の範囲に写す
softmax は複数クラス全体をまとめて確率分布にする
ロジスティック回帰は二値分類で sigmoid とつながる
多クラス分類は softmax とつながる

さらに、マルチラベル分類は各ラベルごとに独立した二値分類として扱うのが基本です。
そのため、各ラベルについて sigmoid を使う形になります。

$$
p(y_m=1|x)=\sigma(z_m)
$$

この式を見ると、マルチラベル分類は多クラス分類に近いというより、二値分類の集合体として理解した方が自然だと分かります。

名称が似ているだけに、ここはかなり混ざりやすいところです。
しかし数式を見てしまえば、マルチラベル分類は「複数候補から1つ選ぶ問題」ではなく、「各ラベルを個別に判定する問題」だと判断しやすくなります。

交差エントロピーは「何を罰しているか」が数式で見える

交差エントロピーも、日本語だけで覚えると「分類でよく使う損失関数」程度で止まりやすい分野です。
しかし式を見ると、何をどのように罰しているのかが明確になります。

多クラス分類では、典型的には次の形です。

$$
L=-\log p(y)
$$

この式を見ると、真のクラスに割り当てた確率 $p(y)$ が高いほど損失が小さくなることが分かります。
逆に、真のクラスの確率を低く見積もるほど損失は大きくなります。

つまり、交差エントロピーは単に「当たったか外れたか」だけを見ているのではありません。
「正解ラベルにどれだけ確率を置けたか」を見ています。

この理解があると、「自信満々で外す予測ほど強く罰せられる」という説明を選びやすくなります。
単に名称を覚えるより、数式で目的を押さえておく方が安定します。

勾配降下法とバックプロパゲーションは「傾きの方向」で引っかかりやすい

勾配降下法で重みをどう更新するかは、ひっかけ問題になりやすいポイントです。
基本式は次の通りです。

$$
w \leftarrow w – \eta \nabla L(w)
$$

この式を見れば、勾配降下法は損失を小さくするために、勾配そのものの方向ではなく、勾配と逆の方向へ更新していると分かります。
したがって、「傾きの方向に更新される」という表現が出てきたときは注意が必要です。

厳密にいえば、勾配そのものの方向ではなく、その逆方向です。
ただし、設問によっては「傾きに応じて更新される」という緩い言い方であれば、文脈上おおむね通る場合もあります。

ここで重要なのは、選択肢の精度です。
もし次の2つが並んでいたら、より正確なのは後者です。

傾きの方向に更新される
傾きと逆の方向に更新される

G検定では、この「ざっくり言えば通じるが、より正確ではない説明」を誤答として置いてくることがあります。
数式を知っていると、問題意図に合わせて精密に選びやすくなります。

また、バックプロパゲーションも、出力誤差を使って各重みに勾配を伝搬させる手続きだと押さえておくと、「活性化関数そのものを更新する」「誤差だけを前層へそのまま渡す」といった雑な誤答を切りやすくなります。

正則化は図より数式の方が安全

正則化は、図だけで理解しようとすると、人によってかなり解釈差が出やすい分野です。
L1正則化とL2正則化について、誤差項の等高線の先にひし形や丸が描かれた図はよく出てきます。
ただ、その図だけで性質を確実に判断できるかは別問題です。

ここは、冷静に数式で押さえておいた方が安全です。

L1正則化は次のように書けます。

$$
J(w)=L(w)+\lambda \sum_i |w_i|
$$

L2正則化は次のように書けます。

$$
J(w)=L(w)+\lambda \sum_i w_i^2
$$

この式から、少なくとも次の違いは整理しやすくなります。

L1 は重みの絶対値和を罰則として加える
L2 は重みの二乗和を罰則として加える
L1 は不要な重みを 0 にしやすい
L2 は重み全体をなめらかに小さくしやすい

図は直感の補助としては有効です。
ただ、試験で選択肢を切るには、「何を罰しているのか」を数式で理解している方が安定します。
とくに「L1 は特徴選択につながりやすい」「L2 は重みを疎にするとは限らない」といった差は、図だけより式の方が判断しやすいです。

数式を知っていると解きやすい例題

以下の例題はオリジナルです。
実際のG検定の過去問ではなく、G検定で問われやすい「もっともらしい誤答を外す」感覚に寄せています。

例題1 Q学習

問題
Q学習に関する説明として、最も適切なものを選んでください。

A. Q学習は、各状態でどの行動をどれくらいの確率で選ぶかを、方策そのものとして直接学習する手法である
B. Q学習は、状態と行動の組み合わせごとに、その選択が将来どれくらい有利かを見積もりながら学習する手法である
C. Q学習は、教師データとして与えられた正解行動との差を最小化して学習する教師あり学習の一種である
D. Q学習は、その時点で得られる報酬だけを見て学習し、将来得られる報酬の見込みは考えない手法である

■ 正解
B

■ 簡単な解説
Q学習は、状態と行動の組に対して価値を割り当て、その行動が将来どれだけ有利かを見積もりながら学習する手法です。
この点は、更新式を見ると整理しやすくなります。

$$
Q(s,a)\leftarrow Q(s,a)+\alpha \left[r+\gamma \max_{a’}Q(s’,a’)-Q(s,a)\right]
$$

この式から分かるのは、Q学習が方策そのものではなく $Q(s,a)$ という価値を更新していること、そして直後の報酬 $r$ だけでなく、次状態 $s’$ で得られる将来の見込みも含めて学習していることです。

■ 正解の理由
Bは、Q学習が状態と行動の組み合わせに対する価値を学習する手法であり、その価値が将来報酬の見込みを含むことを適切に表しています。
更新式でも、更新対象が $Q(s,a)$ であり、そこに $r$ と $\max_{a’}Q(s’,a’)$ が入っているため、この説明が最も自然です。

■ 不正解の理由
A
Q学習は、行動確率そのものを直接学習する説明ではありません。
更新しているのは方策そのものではなく、状態と行動の価値です。

C
Q学習は教師あり学習ではありません。
正解ラベルが与えられるのではなく、環境との試行錯誤を通じて学習します。

D
Q学習は現在の報酬だけでなく、将来の見込みも考慮します。
更新式にも $\max_{a’}Q(s’,a’)$ が入っているため、この説明は不適切です。

■ まとめ
Q学習は、行動確率を直接学ぶ手法ではなく、状態と行動の価値を見積もる手法です。
設問自体は自然言語で解けますが、更新式を知っていると「何を更新しているのか」「将来の見込みを含むのか」が明確になり、より安定して選択肢を切りやすくなります。

例題2 ロジスティック回帰・sigmoid・softmax・マルチラベル分類

問題
sigmoid 関数、softmax 関数、ロジスティック回帰、マルチラベル分類に関する説明として、最も適切なものを選んでください。

A. ロジスティック回帰では、複数クラス全体の確率分布を出すために softmax を用いるのが基本である
B. マルチラベル分類では、1つのサンプルは1つのラベルだけに属するため、softmax を用いるのが自然である
C. ロジスティック回帰は二値分類で sigmoid を用いて確率を表し、マルチラベル分類は各ラベルを独立した二値分類として扱うため sigmoid と相性がよい
D. sigmoid はディープラーニング専用の活性化関数であり、機械学習の分類手法とは直接関係しない

■ 正解
C

■ 簡単な解説
ロジスティック回帰では、二値分類の確率を sigmoid で表します。
マルチラベル分類は各ラベルについて独立した二値分類とみなせるため、各ラベルごとに sigmoid を使う形が基本です。

$$
p(y=1|x)=\sigma(w^{\top}x+b)
$$

$$
p(y_m=1|x)=\sigma(z_m)
$$

$$
p(k)=\exp(z_k)/\sum_j \exp(z_j)
$$

■ 正解の理由
C は、ロジスティック回帰、sigmoid、マルチラベル分類の関係を正しく説明しています。
sigmoid は単なる活性化関数の名称として覚えるだけでなく、二値分類の確率出力と結びつけて理解すると整理しやすくなります。

■ 不正解の理由
A
それは多クラス分類の説明に近いです。ロジスティック回帰の基本は二値分類です。

B
それはマルチクラス分類の説明です。マルチラベル分類では複数ラベルが同時に成立しえます。

D
sigmoid はディープラーニングでも出てきますが、ロジスティック回帰でも中心的に使われます。専用ではありません。

■ まとめ
sigmoid と softmax は、グラフの形だけでなく、どの分類設定に対応するかまで数式で見ておくと混乱しにくくなります。

例題3 勾配降下法

問題
勾配降下法に関する説明として、最も適切なものを選んでください。

A. 損失を最小化するため、重みは常に勾配と同じ方向に更新される
B. 損失を最小化するため、重みは勾配と逆の方向に更新される
C. 学習率は損失関数そのものを表す
D. バックプロパゲーションでは活性化関数そのものを更新する

■ 正解
B

■ 簡単な解説
勾配降下法の基本式は次の通りです。

$$
w \leftarrow w – \eta \nabla L(w)
$$

■ 正解の理由
損失を小さくしたいので、勾配そのものの方向ではなく、勾配と逆の方向へ更新します。式にマイナスが入っているので、B が最も適切です。

■ 不正解の理由
A
「傾きに応じて更新される」といった緩い表現なら通じることもありますが、厳密には逆方向です。より正確な選択肢があるなら A は外すべきです。

C
学習率は更新幅を調整するパラメータです。損失関数ではありません。

D
バックプロパゲーションは誤差に基づいて各重みの勾配を求める手続きであり、活性化関数そのものを更新するわけではありません。

■ まとめ
勾配降下法は「傾きを見る手法」ですが、更新方向そのものは勾配と逆です。G検定ではこの精度差が問われやすいです。

例題4 正則化

問題
正則化に関する説明として、最も適切なものを選んでください。

A. L1正則化は重みの二乗和を罰則として加え、重み全体をなめらかに小さくする
B. L2正則化は重みの絶対値和を罰則として加え、不要な重みを 0 にしやすい
C. L1正則化は重みの絶対値和を罰則として加え、重みを疎にしやすい
D. 正則化は訓練誤差を小さくすることだけを目的とし、過学習とは無関係である

■ 正解
C

■ 簡単な解説
L1 と L2 は、損失関数に加える罰則の形が違います。

$$
J(w)=L(w)+\lambda \sum_i |w_i|
$$

$$
J(w)=L(w)+\lambda \sum_i w_i^2
$$

■ 正解の理由
L1正則化は絶対値和を罰則として加えるため、不要な重みを 0 にしやすい性質があります。したがって C が最も適切です。

■ 不正解の理由
A
それは L2正則化の説明です。

B
それは L1正則化の説明と入れ替わっています。

D
正則化は過学習を抑えるための代表的な考え方の1つです。訓練誤差だけを下げることが目的ではありません。

■ まとめ
L1 と L2 は図で覚えるより、何を罰しているかを式で理解した方が選択肢を切りやすくなります。

FAQ

G検定に数学は本当に不要ですか？

高度な計算問題を解くための数学は必須ではありません。
ただし、数式を読めると概念の位置関係が明確になり、曖昧な選択肢を切り分けやすくなります。

G検定で数式理解が特に役立つ分野はどこですか？

強化学習、ロジスティック回帰、sigmoid と softmax の使い分け、マルチクラス分類とマルチラベル分類の違い、勾配降下法、バックプロパゲーション、正則化などで特に有効です。

sigmoid と softmax はどう使い分ければよいですか？

sigmoid は二値分類や各ラベルを独立に扱うマルチラベル分類と相性がよく、softmax は複数候補のうち1つを選ぶマルチクラス分類と相性がよいです。

勾配降下法では重みは傾きの方向に更新されますか？

損失を最小化する勾配降下法では、重みは勾配そのものの方向ではなく、勾配と逆の方向に更新されます。
式では $w \leftarrow w – \eta \nabla L(w)$ と表されます。

L1正則化とL2正則化の違いは何ですか？

L1正則化は重みの絶対値和を罰則として加え、不要な重みを 0 にしやすい性質があります。
L2正則化は重みの二乗和を罰則として加え、重み全体をなめらかに小さくする方向に働きます。

参考文献

一般社団法人日本ディープラーニング協会「G検定とは」
https://www.jdla.org/certificate/general/

一般社団法人日本ディープラーニング協会「シラバス」
https://www.jdla.org/download-category/syllabus/

Christopher J. C. H. Watkins, Peter Dayan, “Q-learning”, Machine Learning, 1992
https://link.springer.com/article/10.1007/BF00992698

Richard S. Sutton, “Learning to Predict by the Methods of Temporal Differences”, Machine Learning, 1988
https://link.springer.com/article/10.1007/BF00115009

Stanford University, CS229 Lecture Notes
https://cs229.stanford.edu/notes2022fall/main_notes.pdf

Stanford University, UFLDL Tutorial, “Softmax Regression”
https://ufldl.stanford.edu/tutorial/supervised/SoftmaxRegression/

David E. Rumelhart, Geoffrey E. Hinton, Ronald J. Williams, “Learning representations by back-propagating errors”, Nature, 1986
https://www.nature.com/articles/323533a0.pdf

scikit-learn documentation, “LogisticRegression”
https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

scikit-learn documentation, “Multiclass and multioutput algorithms”
https://scikit-learn.org/stable/modules/multiclass.html

Robert Tibshirani, “Regression Shrinkage and Selection via the Lasso”, Journal of the Royal Statistical Society: Series B, 1996
https://academic.oup.com/jrsssb/article/58/1/267/7027929

Arthur E. Hoerl, Robert W. Kennard, “Ridge Regression: Biased Estimation for Nonorthogonal Problems”, Technometrics, 1970
https://www.jstor.org/stable/1267351

まとめ

「G検定に数学は不要」は事実です。
ただし、それは「数式を知らなくても概念のズレが起きない」という意味ではありません。

とくに強化学習、ロジスティック回帰、sigmoid、softmax、マルチラベル分類、勾配降下法、正則化のような分野では、数式が概念の位置関係を固定してくれます。
その結果、「一部正しい誤答」と「より正確な正答」を見分けやすくなります。

数学必須ではないが、数式理解は強い補助線
数式が難しい場合は、表や図で位置関係を固定
「最も適切」を切る力は、概念整理の精度で決まる

まず1冊、G検定全体を押さえる本

深層学習教科書ディープラーニング G検定（ジェネラリスト）公式テキスト

Amazon.co.jp : 深層学習教科書ディープラーニング G検定（ジェネラリスト）公式テキスト

いちばん素直なのはこれです。
JDLA監修で、新シラバス準拠、章末問題つき、法律・倫理や生成AIまわりまで含めて広く押さえられるので、「まず全体像を1冊でつかむ」役としてかなり相性がいいです。
「概念の位置関係」を確認する土台にもなります。

徹底攻略ディープラーニングG検定ジェネラリスト問題集

Amazon.co.jp : 徹底攻略ディープラーニングG検定ジェネラリスト問題集

本文で扱っているのは「最も適切な説明を選ぶ」ための整理です。
その観点では、インプット用に公式テキスト、アウトプット用に問題集を1冊足す組み合わせがかなり強いです。
この本は最新のシラバス・出題形式・傾向に沿って全面改訂され、収録問題も増量されています。

強化学習をちゃんと腹落ちさせる本

Pythonで学ぶ強化学習改訂第2版

Amazon.co.jp : Pythonで学ぶ強化学習

強化学習を自然言語だけで追うと曖昧になりやすい人に合います。
講談社サイエンティフィクの紹介でも、ゼロから丁寧に解説し、Policy GradientやA2Cの見直しも入った改訂版とされていて、実装を伴いながら理解を固定しやすい構成です。
Q学習だけでなく、「何を更新しているのか」を整理したい人に向いています。

ロジスティック回帰・損失関数・正則化の地図をつかむ本

Pythonではじめる機械学習

Amazon.co.jp : Pythonではじめる機械学習

ロジスティック回帰、モデル評価、特徴量、改善という「機械学習の全体像」の中で理解したいならこれが使いやすいです。
著者がscikit-learnの開発に深く関わっており、ステップバイステップで機械学習の基礎を解説し、特徴量エンジニアリングやモデル評価にも多くのページを割いています。
「入力・出力・目的・評価」の整理と相性がいいです。

わかりやすいパターン認識（第2版）

Amazon.co.jp : わかりやすいパターン認識

もう少し理屈寄りに、分類や学習の骨格を押さえたいならこちらです。
オーム社の説明でも、基本項目を絞って重点的かつ詳細に解説した初学者向けの教科書で、学習と識別関数、誤差評価に基づく学習、特徴空間の変換などが並びます。
ロジスティック回帰、損失、識別の考え方を言葉だけでなく構造としてつかみたい人に合います。

sigmoid・softmax・誤差逆伝播をつなげて理解する本

ゼロから作るDeep Learning

Amazon.co.jp : ゼロから作るDeep Learning

「sigmoidは知っている、softmaxも知っている、でもロジスティック回帰と絡むと急にわからなくなる」という話にいちばん噛み合いやすい1冊です。
O’Reilly Japanの説明でも、ニューラルネットワークの基礎だけでなく、誤差逆伝播法、Dropout、Adamまで含めて、理論と実装をつなげて学べる本です。
sigmoidやsoftmaxを単なる“活性化関数の名前”で終わらせず、何のために使うのかまでつなぎやすいです。

これならわかる深層学習入門

Amazon.co.jp : これならわかる深層学習入門

実装よりも「理論を明快に理解したい」寄りならこちらです。
講談社サイエンティフィクの紹介では、機械学習の予備知識がない読者でも基礎から理論的に明快に説明する本とされていて、数式の意味を丁寧につかみたい人に向いています。

数式がしんどい人向けの補助線になる本

データサイエンスのための統計学入門第2版

Amazon.co.jp : データサイエンスのための統計学入門

「数式がまったく不要」ではないけれど、最小限の数式とグラフとコードで多面的に理解したい人に向いています。
O’Reilly Japanの紹介でも、統計学と機械学習の基本概念を、簡潔な説明と最低限の数式、グラフ、R/Pythonコードで示す構成です。
「数式が難しいなら、別の手段で位置関係を固定する」に近い読み方がしやすいです。