G検定 G検定対策 究極カンペをつくろう#10 マルチモーダル(CLIP,DALL-E,Flamingo,Unified-IO,Zero-shot,基盤モデル,マルチタスク学習)
基盤モデルを起点に共有表現→マルチタスク学習→Zero-shotへと汎化が連鎖し、画像×テキストを同一意味空間で扱う枠組みを整理した記事である。主要タスクは画像キャプション・テキスト→画像生成・視覚質問応答であり、共有表現を背骨に検索・生成・説明・応答へ橋渡しする。代表モデルはCLIP(検索)、DALL·E(生成)、Flamingo(少数例対応)、Unified-IO(統合処理)であり、活用は検索/クリエイティブ/アクセシビリティ/ロボティクス/EC/医療に及ぶ。