Vision Transformer

数値計算

VLMは暗黙にセグメンテーションしているのか?|Self-AttentionとViTのトークン・マルチスケールを整理する

VLM(Vision-Language Model)は内部でどこまでセグメンテーションしているのか?Self-Attentionの行列形状やトークン化、マルチスケール特徴(CNNとTransformerの違い)をまとめて整理します。