【G検定対策】JDLAジェネラリスト検定2020#1,#2【難易度、感想】

G検定
スポンサーリンク

はじめに

2020年3月14日に実施された日本ディープラーニング協会ジェネラリスト検定(通称:G検定)に無事合格。
よって、どのように勉強したのかとか感想を記載する。
さらに実際の出題数、難易度等をシラバス単位で解説。
シラバス単位の出題数は、試験当日に走り書きした雑なメモから思い出しながら書き出したので、おおよその値となる。

今後のG検定受験者の役に立てれば幸い。

2020#2の情報を随時追記する。

G検定2020#2について

本記事を「見ておいてよかった。」「先にこの記事を見つけていれば。」等のコメントを頂いていることから、2020#2に対しても一定の効果はあったもの思われる。

G検定を受けてみた感想

まずは大まかな感想。

  • ネット上の情報から感じた難易度よりも難しかった
    • 一応、年々難易度が上がっているという情報もあったので過去問、問題集だけでは対応できないとは思っていた。
  • 公式テキスト、問題集等から得られる基礎的な知識だけでなく、現時点の新しい知識も求められる
    • 強化学習あたりがテキスト、問題集ではあまり語られていない反面、出題数が多い印象
    • 自然言語処理関連も予想よりも多い印象
      • 2019年に流行ったBERT/transformerの影響?
    • 法規関連が最初の方に大量に出てきて心を折れかけさせた
      • 個人情報保護、匿名加工、自動運転。著作権、ドローン飛行規制、道路交通法改正(2020#2ではドローン関連問題は出なかったもよう。)
  • ちょっと意外な問題
    • 三平方(ピタゴラス)の定理が出た。
      • 確かにベクトルのノルムを算出する時には使うのでAIと無関係ということは無い。
  • 出題数は214問/120分
    • 1問あたり33.6秒程度、10問あたり5.6分、50問あたり28分
      • よって、50問を20分で解くくらいのペース配分にして、分からないものは一旦切り捨てて後でググる
    • 2020#2は200問/120分と問題数が減った。
      • その分、難易度が上がったと思われる。
  • 問題集を解きまくって反射的に答えを出すと言いう過学習方式は通用しない
    • 意図的に読んで頭にイメージを浮かべないと何を言っているのかわからない問題文になっている。
    • 対策
      • 既知の問題文を自分でドロップアウトさせて量産。それを持って自分の脳の汎化性能を引き上げておくと良い。
  • Google検索用にマルチモニタ推奨。
    • 可能であれば3画面で臨めると吉。

G検定(JDLA ディープラーニング ジェネラリスト検定)とは何か?

G検定(JDLA ディープラーニング ジェネラリスト検定)試験概要
私が説明するより、「日本ディープラーニング協会」のwebサイトを直接参照した方が良いでしょう。

資格試験について
当協会の実施する、資格試験について

一言でいうならば、

ディープラーニングの基礎知識を有し、適切な活用方針を決定して、事業活用する能力や知識を有しているかを検定する。

というもの。

  • 基礎知識を有する。
  • 活動方針を決定できる。
  • 事業活用できる。

こういった人材を指してジェネラリトと呼ぶ。

G検定の過去も含めた合格率と難易度

開催日申込者数受験者数合格者数合格率
20171,5001,44882356.87%
2018#12,0471,9881,13657.14%
2018#22,7452,6801,74064.93%
2019#13,5413,4362,50072.76%
2019#25,3875.1433.67271.40%
JDLA の公開情報より


これに対して、2020#1は以下になる。

開催日申込者数受験者数合格者数合格率
2020#16,2984,19866.66%
G検定2020#1の合格通知より


合格率は見事に6が並んで・・・。(獣の数字?)
2019年が70%オーバーに対して、2020#1は66.66%と、やや難易度が高めと言える数値になっている。

3人の内2人が合格ということで、普通であれば難易度低めということになるが、受験者としては結構対策している人が多い気がするので、結構そぎ落とされてる印象にはなる。

合格点は公表されていないので、恐らくは合格率の調整が入っていると思われる。
よって、如何に平均より上に行くかが重要と考えて良い。

2020#2も似たような調整になると思う。

G検定対策前の私のスペック

  • 趣味でDNNを少しかじってる。
    • 「ディープラーニングの概要」の8割程度の知識
    • 「ディープラーニングの手法」の5割程度の知識
    • 「ディープラーニングの研究分野」の4割程度の知識
  • 上記の絡んでニューラルネットワーク以外の機械学習も知識レベルで少し保有
    • 「機械学習の具体的手法」の3割程度の知識
  • 微分積分、ベクトル、行列に対しては特に抵抗感は無い。

つまり、素の状態では214問中60問程度で正答率28%程度だったと言える。
これが知識ゼロからスタートする方と比較した際の私のアドバンテージとなる。

微分積分、ベクトル、行列に関して。

問題としてはそれぞれ1問出るか出ないか程度なので、この部分ではアドバンテージはなし

G検定対策の学習時間

G検定に向けての対策は試験日から2週間前から開始。
一日の学習時間は通勤時間の学習も合わせて2時間程度
つまり、28時間の学習時間となる。

しかし、正直28時間では不足だったと認識している。
下で紹介している白本、黒本、AI白書をじっくりやって1周しかできず、正直言って知識として定着したかはあやしい。
よって、私と同様に一日に2時間程度しか学習時間を割り当てられない方は試験日1ヶ月前から学習開始して白本、黒本、AI白書を2周した方が良い

G検定対策として学習に使用した本(テキスト、問題集、時事)

いわゆる白本黒本。加えてAI白書
私の場合は白本側でガッチリと全体像を捕まえて黒本とAI白書で随時補強していく方針で実施。
正直、白本だけでは今回のG検定の問題の半分も解けない
黒本加えれば半分は解けそう
AI白書の補強分でやっと6割越えだったかと。

ディープラーニングG検定公式テキスト(通称白本)

徹底攻略 ディープラーニングG検定 ジェネラリスト問題集(通称黒本)

AI白書

あと、松尾 豊 先生の「人工知能は人間を超えるか ディープラーニングの先にあるもの」は読んでおいた方が良い。
白本と被る内容は多いが、シナリオとして認識する文系脳の方は相性が良いかと。

学習のコツ(出題者側の思考)

出題者側の思考を考えてみるのが手っ取り早い。
出題者に課せられた重大ミッションはおおよそ以下になる。

  • 合格点はおおよそ〷点にしたい。(たとえば60点)
  • 勉強していない受験者を即行で切りたい。
  • 上記に伴い、合否を二極化(または三極化)したい。

この場合、60点を取らせるためには、過去の問題や巷に流れている問題集から出題用の問題を持ってくる。
つまり、「この問題解いた事ある!ラッキー」ではなく、
「ヤバイ。出題者に解かされている!この問題は絶対落とせない」と考えるべきとなる。
これがほとんど解けない場合は、不合格確定。

次に二極化についてだが、
勉強してきた受験者の傾向も2つに分かれる。

  • 問題集をベースに慣らしてきた。(たぶん、8割の人間はこっち)
  • 情報を構造化して知識として定着してきた。(のこり2割はこっち)

G検定の場合、合格率66%を狙っているようなので、
前者の半分くらいを合格させる難易度に設定してくる。

つまり、問題集等で語られてはいるが、ちょっと論点、視点をずらす問題を散りばめてくることが予想できる。
これも半分は解けるようにしておかないと少し危険域に入る。

このような受験者の分布を散らしたいという出題者側の思考には注意しておいた方が良い。

そもそもとして、後者の「知識として定着」であれば全く問題は無い。

無料対策講座によるG検定対策

「資格試験のオンライン対策サイト【資格スクエア】」さんの講座に、まさにそのままのG検定対策講座というのがある。
オンラインの無料体験講義があるので、ここで一回サラッと概念を掴んでしまうというのも一手。
何事も取っ掛かりは重要で、取っ掛かりさえあれば、後は結構自力で学習サイクルを回せると思う。

取っ掛かりが欲しい方は以下サイト参照。

G検定対策としてのその他の活動

あとはインプットだけでなく、アウトプットの方も意識。
簡単に言うと、調べた内容をノートに纏めるなど実施。
本サイトでも掲載しているが、以下のように情報をまとめる作業をしている。

項さ検証、過学習対策、評価指標
活性化関数、勾配降下法、学習アルゴリズム、ドロップアウト、初期値の工夫、バッチ正則化

以降、シラバスに則って出題数、難易度、情報量、対策方法等を説明。

人工知能(AI)とは

項目レベル
検定出題数極少(1問)
検定難易度
Web情報量
過去問、問題集だけで対応可?OK

さらっと流してOKな部分。

AIの歴史とレベル。第1次AIブーム、第2次AIブーム、第3次AIブーム。

人工知能をめぐる動向

探索・推論、知識表現、機械学習、深層学習

項目レベル
検定出題数中(19問)
検定難易度
Web情報量
過去問、問題集だけで対応可?おおよそOK

情報量が多い割には出題数も少な目で難易度も低い。
逆説的に言うと落としてはいけない部分と言える。

探索木、ハノイの塔

探索木の構造にすることで、コンピュータが処理できる形式にすることが重要。
仕組みが分かると知性は感じられない。と感じるのがAI効果。

STRIPS(Stanford Research Institute Program Solver)、SHRDLE:シュルドュル:テリー・ウィノグラード、Cycプロジェクト

「積み木の世界」を例とされることが多い。

  • STRIPS:ストリップス
  • SHRDLU:シュルドュル
オセロ、チェス、将棋、囲碁、探索規模、αカット、βカット、事前に点数が付いた探索木を構築

これも基本は探索木になる。
迷路の探索木に似ているが、「行動」と「結果」の連続した探索木となるが、局面が複雑化するタイプになると、それだけ膨大なツリーとなる。

モンテカルロ法、プルートフォース

推論、探索の時代は、基本、「初期状態」「行動」「結果」が明確であることをベースにしている。
後期に入るとモンテカルロ法の方な確率論が導入され始める。

エキスパートシステム、知識ベース、ELIZA、MYCIN(マイシン)、DENDRAL、チャットボット、イライザ効果、インタビューシステム、自然言語処理や機械学習

第2次AIブーム初期は単純なパターンマッチで知識を表現しようとした。
しかし、その知識の獲得や管理に課題が出てきた。
それを解決するために意味ネットワークやオントロジーの研究が注目される。

意味ネットワーク、オントロジー(記述方法論)、ヘビーオントロジー、ライトオントロジー、ウェブマイニング、データマイニング、ワトソン、東ロボくん、推移律

オントロジーにより、意味ネットワークが構築され、人の知識に近いものが出来てきた。
第1次AIブームと比べると現実世界に対して影響を持ち始めた時期となる。

機械学習、レコメンデーション、スパムフィルタ、統計的自然言語処理、ディープラーニング、誤差逆伝播法、自己符号化器(オートエンコーダ)、ILSVRC、2012年トロント大学のSuperVisionが圧倒的勝利。

ディープラーニングの元となるニューラルネットワーク自体は第1次AIブーム時から存在していた。
バックプロパゲーションなどの学習方法、コンピュータの処理能力、学習するデータ量により一気に進展し、ブレイクスルーへ。

人工知能分野の問題

トイプロブレム、フレーム問題、弱いAI、強いAI、身体性、シンボルグラウンディング問題、特徴量設計、チューリングテスト、シンギュラリティ

項目レベル
検定出題数少(4問)
検定難易度
Web情報量
過去問、問題集だけで対応可?おおよそOK

基本的にはお約束的な問題が出るのみ。
テキスト、問題集をやっていれば問題ない。

トイプロブレム、フレーム問題、チューリングテスト、強いAI、弱いAI、シンボルグラウンディング問題、身体性

知能、知性に至るのは多くの課題がある。
ゴールを「便利な道具」とするか「人間のパートナー」とするかでも大きく変わる。

知識獲得のボトルネック、シンギュラリティ、特徴量設計の問題

解決していない問題はあるが、ディープラーニングにより解決した問題も多い。
シンギュラリティ(技術的特異点)はもうすぐ。

機械学習の具体的手法

代表的な手法、データの扱い、応用

項目レベル
検定出題数極多(54問)
検定難易度
Web情報量
過去問、問題集だけで対応可?不足

出題数は最多の部分となる。
ただし、勉強し易い部分ともいえるので、ここで頑張って点を稼ぐ必要がある。

機械学習、教師あり学習、教師なし学習、強化学習、回帰、分類、クラスタリング、線形回帰、ランダムフォレスト、ブースティング、ロジスティック回帰、サポートベクターサポートマシン、ニューラルネットワーク、k-means、主成分解析

機械学習でも目的別にカテゴリ分けができる。(教師あり:回帰、分類、教師なし:クラスタリング)
ディープラーニングが流行りの世の中ではあるが、可能な限りシンプルな手法による解析が重要な場合を想定して、今回の手法を頭の片隅にでも置いておいた方が良い。

交差検定、過学習対策、評価指標

学習する際に学習結果を評価する必要がある。
単に正解率が高いが優秀とは限らず、間違い検知率が高いことが重要な場合もある。

ディープラーニングの概要

ニューラルネットワークとディープラーニング、既存のニューラルネットワークにおける問題、ディープラーニングのアプローチ、CPU と GPU
ディープラーニングにおけるデータ量

項目レベル
検定出題数少(7問)
検定難易度
Web情報量
過去問、問題集だけで対応可?おおよそOK

ここは流してOK。

多層パーセプトロン、ディープラーニング、オートエンコーダ、積層オートエンコーダ、ハードウェアの進歩、ファインチューニング、ムーアの法則、CPU,GPU,GPGPU、TPU
  • ニューラルネットワークを元にさらに隠れ層を増やしたディープニューラルネットワークが登場。
  • しかし、隠れ層を増やしたことで勾配喪失や計算コストに課題が発生。
  • 計算コストはCPUやGPUの発展に助けられた部分はある。

ディープラーニングの手法

活性化関数、学習率の最適化、更なるテクニック、CNN、RNN
深層強化学習、深層生成モデル

項目レベル
検定出題数極多(46問)
検定難易度
Web情報量
過去問、問題集だけで対応可?不足

「機械学習の具体的手法」に続いて多い部分。
G検定のメインの部分なので当然と言えば当然。
一番調べやすい部分なので学習はし易い。

活性化関数、勾配降下法、学習アルゴリズム、ドロップアウト、初期値の工夫、バッチ正規化
  • 勾配降下法で楽に誤差関数を0に近づける手法が主流になった。
  • 活性化関数のバリエーションを増やすことで勾配を作りやすくした。
  • 局所最適解や鞍点に陥らないような学習アルゴリズムが登場。
  • さらに精度を高めたり、精度が上がることによるオーバーフィッティング抑制など手法自体も微調整される状況となった。
CNNの基本形、福島邦彦のネオコグニトロン、ヤン・ルカンのLeNet、畳み込み、プーリング、全結合層、データ拡張、CNNの発展形、転移学習、AlexNet、GoogLeNet、Skip connection
  • 画像による物体認識は長年の課題の一つであり、それが解決しつつある。
  • しかし、それには膨大な学習が必要となるが、公開されているネットワークも多い。
  • 公開ネットワークに層を追加しファインチューニングすることで手早く高性能なネットワークが獲得できる。
RNNの基本形、RNNの課題、LSTM、GRU、Bidirectional RNN、RNN Encoder-Decoder、Attention
  • 時間の概念は本来であれば、微分積分の領域であるが、ニューラルネットワークでも過去、未来をデータとして持つことで表現可能
  • LSTMの考え方が重要で、それらの組み合わせ方でRNNの発展形が出来る。
強化学習、深層強化学習、画像生成モデル、生成タスク、Double DQN、Dueling Network、Categorical DQN、Rainbow、AlphaGo、AlphaGoZero
  • 答えのない目的を持たせた強化学習とディープラーニングの組み合わせとして深層強化学習が存在。
  • 生成タスクとして、何もないところからデータを生成する深層生成モデルが存在。(画像生成モデル)

ディープラーニングの研究分野

画像認識、自然言語処理、音声処理、ロボティクス (強化学習)、マルチモーダル

項目レベル
検定出題数中(38問)
検定難易度
Web情報量
過去問、問題集だけで対応可?大きく不足

先の「ディープラーニングの手法」が基礎とするならば、こちらは応用側となる。
若干調べにくく、点に差がつくところ。

2020#2ではU-Netの図解が出たらしい。
U-Net以外にFCN、SegNet、SSD、YOLOなどの構成図は一取り見ておいた方が良いだろう。

年々、急速に発展している部分なので、公式テキスト、問題集では直近3年分に関してはフォローできていない。この点を注意して対策する必要がある。

R-CNN(Regional CNN)、高速RCNN(fast RCNN)、FCN、SegNet、関心領域、特徴量、物体検出器、インスタンスセグメンテーション
  • 物体を検出することと、物体を認識することは別
  • しかし、「物体を認識」する過程で「物体を検出」している可能性もある
  • 物体検出は矩形のバンディングボックスと画素単位のセマンティックセグメンテーションに分けられる。
  • 双方をくみあわせることでインスタンスセグメンテーションが実現可能
word2vec、SKIPGRAM、CBOW、faseText、ELMo、画像注釈、視覚CNN、言語生成LSTM、ニューラルチューニングマシン
  • 自然言語処理の基礎はword2vecことベクトル空間モデル、単語埋め込みモデル
  • 発展形のfastText、ELMoはマルチタスク学習が可能
  • 画像注釈はCNNとRNNの連携で実現
WaveNet、強化学習、報酬、行動、状態、モデル学習、経験の模倣(プラン更新)、方策(ポリシー)ベース(UNREAL)、行動・状態価値関数ベース(Q関数ベース)、モデルベース(A3C)
  • やや発展中の領域
  • 強化学習はセルフプレイにより、無限に強化される可能性を持っている。

ディープラーニングの応用に向けて

産業への応用、法律、倫理、現行の議論

項目レべる
検定出題数多(42問)
検定難易度極高
Web情報量
過去問、問題集だけで対応可?激しく不足

恐らくは受験者全員を苦しめた大魔境
テキスト、問題集が完全に無力化される。
Google先生に聞くにしても、適切なキーワードが思い浮かばないこともシバシバ。
この部分のGoogle検索時間を如何に稼ぐかが勝敗を分ける。

2020#2では、ややこの部分の問題数が増えているという情報あり。
70問という話も出ているが、恐らくは50問弱程度の問題数と思われる。

「道路交通法改正で自動運転レベル3でのスマホ操作を解禁」
「自律型致死兵器システム(LAWS)」
の問題が出たらしい。

ものづくり	不良品検出	"「不良品が発生する頻度が少ない」ことが課題。良品データのみの特徴を抽出し、その差分で不良品を検出。つまり、良品データでなければ不良品という考え方。AutoEncoderと相性が良い。"	画像認識 	予兆検知、予防保全	「作業員の熟練度に依存しない安定した生産」が目的。	画像認識 	バラ積みピッキング	"「ロボットに求められる作業レベルが高度化」が課題。Faster R-CNNによる検知と認識と相性が良い。"	"画像認識強化学習" モビリティ	自動運転	"内閣官房IT総合戦略室では以下を目標としている。2020年:無人自動走行による移動サービス2022年:高速道路でのトラック隊列走行以下の検討も進められている・自動運転車両の安全基準・交通ルールの在り方・保険を含む責任関係の明確化・国際動向、イノベーションに配慮した制度設計"	画像認識 	ロボットタクシー	自動運転を前提としたロボットタクシーの開発も進められている。	画像認識 医療	診断支援	"ディープラーニングの特徴抽出能力と相性が良い。意思への負担緩和や見落としリスク軽減に期待されている。"	画像認識 	ゲノム解析	"2017年GoogleからDeepVariantが発表。解析は進むが根拠を示すことが困難という課題あり。"	画像認識 	介護	"着衣介助にも利用その他、介護コミュニーケーションや介護初心者へのコーチングにも利用。"	"画像認識強化学習" インフラ、防犯、監視	メンテナンス効率化	コンクリートひび割れ検出、舗装道路損傷判断、送電線点検などに利用。	画像認識 	建設現場	トンネル切羽、掘削のり面の地質評価に利用。	画像認識 	産業廃棄物	人手不足解消	"画像認識強化学習" 	防犯、監視	パトロール要員の目視の代わりに利用。	画像認識
領域	事例	概要	技術要素 サービス、小売り、飲食店	タクシー需要予測	"人口統計、気象、運行の各種データで予測。抽象的で複雑な特徴を獲得するため、AutoEncoderの技術を使用。(Stacked denoisng AutoEncoder)"	- 	来店者情報	"テナントごとのデータ分析と活用。来店者の属性や行動から原因を把握。"	画像認識 	無人コンビニ	人手不足解消の観点から模索する動きあり。	画像認識 	多様な作業	人手不足解消の観点から双腕型マルチモーダルロボットを用いて、不定形物を扱う複数の作業に対しての取り組みあり。	"画像認識強化学習" その他	物流	物流画像判別、倉庫運用最適化	画像認識 	農業	"高齢化に伴う離農に課題あり。これの対策として収穫ロボットの研究が進められている。また、農薬散布のピンポイント化による農薬コスト削減の取り組みもある。"	"画像認識強化学習" 	金融	時系列解析系ディープラーニングによる株価予想、不正取域検知が行われている。	画像認識 	学習	"オンライン講義サービスの利用が広まるに伴い、ユーザの効率的な学習サポートの試行が始まる。また、昨今の教育傾向として、「課題解決力」を求めることから「記述式解答」が増加。採点効率向上を狙って感じの認識率を引き上げる取り組みがある。"	"画像認識自然言語音声処理" 	インターネット関連	不適切コメント検知	自然言語 		画像商品検索	画像認識 		レコメンド	音声処理 		出品監視	画像認識 		音声認識	音声処理 		チャットボット	"自然言語音声処理"
AIプロダクトサイクル、AIを使いたいではなく、AIを使う必要があるかをまずは考えるべき。 ブラックボックス化せずプロセスが見えた方が良いなどの要望もあるかもしれない。 「バイ・デザイン」でポジティブサムを狙う 	プライバシー・バイ・デザイン(PbD) 	セキュリティ・バイ・デザイン(SbD) 	バリュー・センシティブ・デザイン データの利用条件を確認する 	著作権法 	不正競争防止法 	個人情報保護法等 役割と責任を明確にして連携を進める 	認識のずれが後々問題となることも ディープラーニングを用いる場合の注意点 AI・データの利用に関する契約ガイドライン 	①アセスメント段階、 	②PoC段階、 	③開発段階、 	④追加学習段階 データセットの隔たりに注意 プライバシーに配慮してデータを加工 アルゴリズム 	トレードオフ問題が発生し易い 	・個別性、社会性 	・透明性、セキュリティ 	・プライバシーと利便性 悪用へのセキュリティ対策 	コストが下がるほどセキュリティリスクが増加 	絶対安全な技術は無いと意識 AIに関する知的財産法 データの利用条件を再確認 個人情報を扱う場合、利用目的を出来る限り特定 EU一般データ保護規則(GDPR) 個人情報保護など開発時だけでなく運用時も監視・対策が必要 インセンティブ設計 体制 	クライシスマネジメント(危機管理) 	エスカレーションのしくみ 有事 	ソーシャルメディアの口コミ 	クライシスの規模・状況に応じて機動的に行動 社会と対話 	対応していても伝えて無ければ対応していないのと同じ 	透明性レポート 指針を作成 	AI at google 	Partnership on AI(PAI) 	アシロマAI原則

プロダクトは作ったら終わりではない。
そこから得た教訓を運用保守や次のプロダクト開発へと循環させていくサイクルが重要。

ディープラーニングの基礎数学

項目レベル
検定出題数極少(3問)
検定難易度
Web情報量
過去問、問題集だけで対応可?不足

ここは正直スルーでも良いかもしれない。

微分、微分係数の定義、導関数の公式、記法、偏微分、ベクトルの和、行列の和、行列の積、統計学、相関、正の相関、負の相関、強い相関、弱い相関

偏微分、ベクトル、行列、統計、ベイズの定理等を覚えておくと良い。

その他

以下の情報も整理しておく必要がある。

  • フレームワーク
    • define-by-runタイプ
      • PyTorch
      • chainer
    • Define-and-runタイプ
      • TensorFlow
      • Caffe
  • CIFAR
    • 一般物体認識のベンチマーク用データセット
  • MNIST
    • 手書き数字画像データセット

まとめ

基礎的なところから、最新情報まで含まれた試験となる。
普段からAI関連の情報収集も並行して実施する必要がある。

取っ掛かりが欲しい人は以下のオンライン無料体験講座がお勧め。

コメント

タイトルとURLをコピーしました