数値計算 VLMは暗黙にセグメンテーションしているのか?|Self-AttentionとViTのトークン・マルチスケールを整理する VLM(Vision-Language Model)は内部でどこまでセグメンテーションしているのか?Self-Attentionの行列形状やトークン化、マルチスケール特徴(CNNとTransformerの違い)をまとめて整理します。 2026.02.02 数値計算