G検定対策究極カンペをつくろう#14 データの収集・加工・分析・学習（アノテーション／オープンデータセット／コーパス／データリーケージ）

バックナンバーはこちら

動画シリーズ
到達目標
全体像：究極カンペの工程地図と奈落ルート
収集：オープンデータセット／コーパスと利用条件の確認
1. オープンデータセットの確認ポイント
2. コーパス利用で混ざりやすい論点
加工：train/valid/test分割と前処理（統計はtrain基準）
1. 分割の鉄則
2. 「全部きれいにしてから分ける」が危ない理由
アノテーション：ラベル付けと品質管理
1. 品質管理（ガイドライン／レビュー）
分析・学習：EDAと評価設計（testは最後）
1. EDAの落とし穴
2. 運用の基本形
共同開発：データ共有、アクセス制御・版管理、メタデータ
リスク：データリーケージ（評価リーク）と情報漏洩
まとめ
FAQ
参考文献

動画シリーズ

本記事は、YouTubeで公開している「G検定対策究極カンペをつくろう」シリーズの第14回「データの収集・加工・分析・学習」を文字・図解で整理したものです。

動画では対話形式で解説していますが、この記事では試験直前に見返せるよう、講義ノート＋因果関係図の形に圧縮しています。

G検定対策究極カンペの作り方

G検定究極カンペの作り方というか、カンペに頼らない自分自身の作り方

到達目標

AIの学習対象となるデータを取得・利用するときの注意点を説明できるようにします。
集めたデータを加工・分析・学習させるときの注意点を工程で整理します。
データを共有しながら共同開発を進める場合の留意点を、事故パターンまで含めて押さえます。

全体像：究極カンペの工程地図と奈落ルート

「評価は良いのに本番で失敗する」は、モデルが弱いというよりデータ運用が評価を壊しているケースが多いです。
そこで究極カンペは、用語暗記ではなく工程を一本につないで覚えます。

究極カンペの一本線

収集（取得・利用の注意）
加工（前処理）
アノテーション
分析・学習
評価
共同開発（共有）が途中から合流
油断するとリスクへ落ちる（データリーケージ／情報漏洩）
評価の過大化 → 本番で失敗

データ収集から評価までの工程とデータリーケージ（評価リーク）・情報漏洩につながる因果関係図 — 究極カンペ｜データ工程（収集→評価）とリスク（データリーケージ／情報漏洩）の因果

収集：オープンデータセット／コーパスと利用条件の確認

究極カンペの最初の関門は、「使えるデータ」ではなく「使ってよいデータ」です。
オープンデータセットやコーパスは便利ですが、利用条件を飛ばすと後戻りが最大になります。

オープンデータセットの確認ポイント

商用利用の可否
改変の可否
再配布の可否
クレジット表記の要否
継承条件（同一ライセンスの要求など）
学習利用の可否（条文・README・利用規約で確認）

ライセンス条文を確認する導線を、チームの運用に組み込んでおくのが安全です。
https://creativecommons.org/licenses/by/4.0/legalcode.en
https://opendatacommons.org/licenses/odbl/

コーパス利用で混ざりやすい論点

コーパスはNLPでよく出ますが、次の「地雷」が一緒に入ってきます。

収集元の規約（取得・再配布の可否）
収集範囲（期間・地域・媒体）による偏り
前処理・ラベル定義が不明で、後工程で事故が増える

この時点で「取扱説明書（メタデータ）」が必要だと気づけると、究極カンペ的にはかなり強いです。

加工：train/valid/test分割と前処理（統計はtrain基準）

究極カンペの中核はここです。評価の信頼性は分割で決まります。

分割の鉄則

分割が先（train/valid/testを先に確定します）
前処理の学習用統計はtrainで作ります（平均・分散、欠損補完の統計、語彙、特徴量集計など）

データリーケージ（評価リーク）の典型パターンとして「分割前に前処理を当てる」問題が整理されています。
https://scikit-learn.org/stable/common_pitfalls.html

「全部きれいにしてから分ける」が危ない理由

全データで標準化や欠損補完をすると、test側の情報が混ざる可能性があります。
その結果、評価が実力以上に良く見えます。これがデータリーケージ（評価リーク）の入り口です。

アノテーション：ラベル付けと品質管理

アノテーションはラベル付けですが、究極カンペでは「人の判断を再現可能な仕様にする作業」として押さえます。
仕様が曖昧だと、人ごとに判断が揺れ、モデルも揺れます。

品質管理（ガイドライン／レビュー）

ガイドライン（境界事例、判断フロー、禁止事項を明文化します）
レビュー（二重化、サンプリング監査、フィードバックを回します）
一致度の確認（作業者間でズレが出ていないか見ます）

アノテーションの一致度（Inter-annotator agreement）の考え方は、品質評価として定番です。
https://aclanthology.org/J08-4004.pdf

分析・学習：EDAと評価設計（testは最後）

EDA（探索的データ分析）は便利ですが、究極カンペでは「やり方しだいでリークする」とセットで覚えます。

EDAの落とし穴

全データ（特にtest）を見た結果が、次に影響するとリークになります。

特徴量設計がtestの傾向に寄る
閾値や除外ルールがtestに最適化される
そのまま評価が過大化する

運用の基本形

train：学習と、前処理統計の作成に使います
valid：調整に使います（ハイパーパラメータ、閾値など）
test：最終確認に残します（原則、最後に一度）

「評価データでチューニングしない」は、究極カンペの合言葉にしておくと事故が減ります。

共同開発：データ共有、アクセス制御・版管理、メタデータ

共同開発でデータを共有すると速度は上がりますが、究極カンペでは「事故ルートも太くなる」と捉えます。
ここは3点セットで押さえます。

データ共有

必要な人に必要な範囲だけ共有します。目的外利用を防ぐため、利用条件も一緒に流します。

アクセス制御・版管理

誰が、どのデータ版を使ったか追えるようにします
評価用データが混ざる事故を防ぎます
再現性と監査の土台になります

情報セキュリティの管理策は、NIST SP 800-53などの体系で整理できます。
https://csrc.nist.gov/publications/detail/sp/800-53/rev-5/final

メタデータ（取扱説明書）

最低限これがあると、究極カンペ的に事故率が下がります。

作成経緯（収集元、期間、対象範囲、除外条件）
利用制約（ライセンス、同意、再配布可否、機密区分）
ラベル定義（クラス定義、境界事例、ガイドライン版）
分割ルール（分割単位、リーク防止設計）
前処理履歴（統計の算出範囲、フィルタ条件、特徴量定義）

データ文書化の代表的提案として、Datasheets for Datasets や Dataset Nutrition Label が知られています。
https://arxiv.org/abs/1803.09010
https://arxiv.org/abs/1805.03677

リスク：データリーケージ（評価リーク）と情報漏洩

データリーケージ（評価リーク）

入り口はだいたい次のどれかです。

分割前に前処理の統計を作る
EDAを全データでやり、設計判断に混ぜる
共有データに評価用データが混ざる
メタデータ不足で「それがtest相当だと気づけない」

その結果、「評価の過大化 → 本番で失敗」につながります。
究極カンペでは「混ぜない」「最後に評価」が最重要です。

情報漏洩（セキュリティ事故）

権限設定ミス（見える／落とせる人が増える）
誤配布（ライセンス違反・契約違反）
匿名化不足（個人情報が残る）

AIのリスク整理は NIST AI RMF でも枠組み化されています。
https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf

究極カンペチェックリスト

分割（train/valid/test）を最初に行っていますか
学習用統計（標準化、欠損補完、語彙、集計）をtrainだけで作っていますか
valid/testを見て、特徴量・閾値・除外条件を調整していませんか
共有データに、評価用データ（test相当）が混ざっていませんか
メタデータに、分割ルール・前処理履歴・利用制約が書かれていますか
アクセス制御と版管理で、誰がどの版を扱ったか追えますか

まとめ

今回の究極カンペは、データ工程を「収集→加工→アノテーション→分析・学習→評価」の一本線で覚え、共同開発の合流点で「アクセス制御・版管理・メタデータ」を足す形です。
この線を外れると、データリーケージ（評価リーク）や情報漏洩に落ちて、評価の過大化から本番失敗につながりやすくなります。
G検定でも現場でも、「どの工程で何を守るべきか」を因果で説明できるのが究極カンペとして強いです。

分割は最初、統計はtrain基準
EDAはtrain中心、testは最後に一度
共同開発はアクセス制御・版管理・メタデータで事故を止める

FAQ

データリーケージ（評価リーク）とは何ですか

評価に使うデータ（test相当）の情報が、前処理・特徴量・学習・意思決定に混ざり、評価が実力より良く見える現象です。分割前の前処理や、testを見たチューニングで起きやすいです。

なぜ「分割→前処理（train基準）」が鉄則なのですか

標準化や欠損補完などの統計を全データで作ると、testの情報がtrain側へ流れ込みリークにつながるからです。分割後にtrainだけで統計を作ると混入を減らせます。
https://scikit-learn.org/stable/common_pitfalls.html

EDAはどこまで見てよいですか

基本はtrain中心が安全です。全データ（特にtest）を見て特徴量や閾値を決めると、意思決定にtest情報が混ざりやすくなります。validは調整に使い、testは最終確認に残す運用が基本です。

アノテーション品質は何で担保しますか

ガイドライン（仕様）とレビュー（運用）をセットで回します。作業者間の一致度を確認し、境界事例の定義を更新していくとラベルの揺れが減ります。
https://aclanthology.org/J08-4004.pdf

共同開発で最低限必要なメタデータは何ですか

作成経緯、利用制約、ラベル定義、分割ルール、前処理履歴が最低限です。不足すると誤共有・誤利用・再現不能につながります。

オープンデータセットなら自由に使ってよいですか

「オープン＝無条件」ではありません。商用利用、改変、再配布、クレジット表記、継承条件などがライセンスで指定されます。条文と配布元の利用規約を確認する運用が必要です。
https://creativecommons.org/licenses/by/4.0/legalcode.en
https://opendatacommons.org/licenses/odbl/

参考文献

scikit-learn: Common pitfalls and recommended practices（Data leakageの注意点）
https://scikit-learn.org/stable/common_pitfalls.html
Gebru, T. et al. “Datasheets for Datasets” (arXiv)
https://arxiv.org/abs/1803.09010
Holland, S. et al. “The Dataset Nutrition Label” (arXiv)
https://arxiv.org/abs/1805.03677
Artstein, R., Poesio, M. “Inter-Coder Agreement for Computational Linguistics” (ACL Anthology PDF)
https://aclanthology.org/J08-4004.pdf
NIST “Artificial Intelligence Risk Management Framework (AI RMF 1.0)” (PDF)
https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-1.pdf
NIST “Security and Privacy Controls for Information Systems and Organizations (SP 800-53 Rev. 5)”
https://csrc.nist.gov/publications/detail/sp/800-53/rev-5/final
Creative Commons “Attribution 4.0 International (CC BY 4.0) Legal Code”
https://creativecommons.org/licenses/by/4.0/legalcode.en
Open Data Commons “Open Database License (ODbL) v1.0”
https://opendatacommons.org/licenses/odbl/
EUR-Lex “Regulation (EU) 2016/679 (GDPR) Official Journal”
https://eur-lex.europa.eu/eli/reg/2016/679/oj/eng