G検定対策究極カンペをつくろう#2 画像認識(一般物体認識、物体検出、セグメンテーション、姿勢推定)

バックナンバーはこちら

はじめに
動画シリーズ
説明内容
各種画像認識処理
一般物体認識
次のページへ

はじめに

本稿は「G検定対策究極カンペをつくろう」シリーズの第2作である。
前回は、専門家とのコミュニケーションの重要性について述べ、SNS上のネガティブな意見を手がかりに現状の課題を抽出した。
学習段階に応じた批判的意見を観察することで、問題提起の対象が明確になる傾向がある。

動画シリーズ

G検定の究極カンペ関連動画の再生リスト

G検定対策究極カンペの作り方

G検定究極カンペの作り方というか、カンペに頼らない自分自身の作り方

説明内容

本稿で扱う主な内容は以下の通りである。

各種画像認識処理
一般物体認識
物体検出
セグメンテーション
姿勢推定

画像認識に関連する技術を体系的に整理し、それぞれのモデルがどのカテゴリに属するかを因果関係に基づいて明確化する。
各用語の詳細については、別途調査することを推奨する。検索エンジンやChatGPTなどを活用するとよい。
なお、用語間の因果関係については、一般的な検索では十分な情報が得られない可能性がある。

各種画像認識処理

まずは筆者が作成した因果関係図を提示する。
前回は一般物体認識に限定した図であったが、今回はその他の画像認識モデルも含めた構成となっている。

図の見方としては、AlexNetを起点にその接続線を辿ることで全体像を把握できる。
AlexNetは各種CNNに接続されているほか、物体検出器であるR-CNNやYOLO、VGGを経由して関連するSSDやOpenPoseにもつながっている。

このように、AlexNetは画像認識における最も基礎的なモデルである。
AlexNetは2012年のILSVRC（画像認識コンペティション）において優勝したモデルであり、ディープラーニングの注目を集める契機となった。
CNNを学習する際には、最初に扱う代表的なモデルとして位置づけられている。

歴史的にも重要であり、モデル間の因果関係においても中心的な役割を果たしている。

一般物体認識

一般物体認識においても、AlexNetを起点としてモデルの系譜を辿ることが基本となる。

AlexNetの後には、GoogLeNetおよびVGGが登場している。
両者は2014年のILSVRCにおいて発表され、GoogLeNetが優勝、VGGが2位であった。

GoogLeNetはInceptionモジュールを導入しており、異なるサイズの畳み込みを並列に行うことで、画像の特徴を多様なスケールで捉える構造となっている。
一方、VGGはAlexNetを基に層を深くすることで精度を向上させたモデルである。
並列構造のGoogLeNetに対し、VGGは直列構造を採用しているが、内部パラメータを増加させることで性能を向上させるという点では共通している。
特にVGG16（16層）およびVGG19（19層）が広く知られている。

次に登場するのがResNetである。
ResNetはスキップ結合（Skip Connection）を導入したことで知られており、これにより残差学習が可能となり、勾配消失問題への対策が施されている。

残差学習の解釈には諸説あるが、筆者の見解としては、オイラー法のような数値微分的な演算を通じて、データセットに含まれるバイアスを除去し、変化量のみを捉えることで特徴量が際立つ学習が可能になったと考えている。
この解釈はスキップ結合の数式から導かれたものであり、あくまで一つの考察として参考程度に留めておくのが適切である。

ResNetからは、DenseNet、WideResNet、SENetといったモデルが派生している。
DenseNetは各層を密に接続することで特徴の再利用を促進する構造を持つ。

WideResNetはResNetを横方向に拡張することで学習効率を改善したモデルである。

SENetはResNetをベースにAttention機構を導入したモデルであり、SEブロックと呼ばれる構造を利用している。
なお、GoogLeNetにSEブロックを組み込むパターンも存在する。

EfficientNetはResNetと比較されることが多く、モデルサイズと精度のバランスを最適化した構造を持つ。
EfficientNetに至る系譜としては、MobileNet、MnasNet、EfficientNetという流れがある。

MobileNetはDepthwise Separable Convolutionを採用した軽量CNNであり、モバイルデバイス向けに最適化されている。
この構造は、Depthwise Convolution（チャネルごとの独立畳み込み）とPointwise Convolution（チャネル間の結合）によって構成されており、従来の畳み込み層と同等の性能を維持しつつ、メモリおよび演算リソースの削減を実現している。

MobileNetV2の構造をベースに、NAS（Neural Architecture Search）を適用したものがMnasNetである。
NASはニューラルネットワークの構造を自動で探索・最適化する手法であり、MnasNetの「M」はMobileの頭文字に由来する。
このMnasNetがEfficientNetの基盤となっている。

また、一般物体認識にはTransformerアーキテクチャを応用したモデルも存在する。
Vision Transformer（ViT）は、画像をパッチに分割し、それをトークン列としてTransformerに入力する構造を持つ。
CNNが画像全体を抽象的に捉えるのに対し、ViTはパッチと位置情報をトークンとして系列データとして処理する。
この系列データの関係性を同時に学習することが重要である。

ViTの改良版としてSwin Transformerが存在する。
Swin Transformerは階層的な構造とShifted Window機構を導入しており、局所的なSelf-Attentionを効率的に行いつつ、ウィンドウをずらすことでグローバルな情報伝播も実現している。

Self-Attentionとは、入力ごとに重みを動的に計算することで、重要な情報を選択的に抽出する仕組みである。
通常の全結合層では重みが訓練によって固定されるが、Self-Attentionでは推論時に重みが動的に決定されるため、重要な要素を抽出することが可能となる。

（Attention機構の詳細については、別途解説を予定している。）