DS検定リテラシーレベルの問題集を設置。
(DS検定 データサイエンティスト検定 過去問 問題集 一問一答あたりのキーワードによる流入が多かったので作ってしまいました…)
一応、データサイエンティストスキルチェックリストver.5をベースにしている。
現状は318問ほど放り込んでいる。
問題は随時追加予定。
尚、どこかの情報商材に問題を丸パクされていると通報があったため、コピー不可の処置を取っています。(HTMLソース参照されたらどうしようも無いのですが・・・)
(問題を解いてこのページに飛んできた場合、解答はこのページの下部に表示されてます。)
まとめ記事
DS検定リテラシーレベルのまとめ記事や解説動画へのリンクはこちら
動画とか
【巧妙な罠】データサイエンティスト検定リテラシーレベル解説【DS検定】
【これも見直し戦略が重要】データサイエンティスト検定試験画面解説【DS検定】
問題集と動画連携解説
本問題集とYoutube動画を連携させた利用方法の解説動画
&
スキルチェックリストベース出題して絨毯爆撃的に知識を付けるとか。
学習書籍
最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック 第3版
(通称、白本)
徹底攻略データサイエンティスト検定問題集[リテラシーレベル]対応 徹底攻略シリーズ
(通称、黒本)
徹底攻略データサイエンティスト検定問題集[リテラシーレベル]対応 徹底攻略シリーズ | スキルアップAI株式会社 小縣 信也, スキルアップAI株式会社 斉藤 翔汰, スキルアップAI株式会社 山田 弦太朗 | 工学 | Kindleストア | Amazon
AmazonでスキルアップAI株式会社 小縣 信也, スキルアップAI株式会社 斉藤 翔汰, スキルアップAI株式会社 山田 弦太朗の徹底攻略データサイエンティスト検定問題集[リテラシーレベル]対応 徹底攻略シリーズ。アマゾンならポイント還...
データサイエンティスト検定[リテラシーレベル] 最強の合格テキスト [徹底解説+良質問題+模試(PDF)]
Amazon.co.jp: データサイエンティスト検定[リテラシーレベル] 最強の合格テキスト [徹底解説+良質問題+模試(PDF)] eBook : ヤン ジャクリン, 上野 勉, 株式会社Deepblue: Kindleストア
Amazon.co.jp: データサイエンティスト検定[リテラシーレベル] 最強の合格テキスト [徹底解説+良質問題+模試(PDF)] eBook : ヤン ジャクリン, 上野 勉, 株式会社Deepblue: Kindleストア
合格対策 データサイエンティスト検定[リテラシーレベル]教科書
Amazon.co.jp: 合格対策 データサイエンティスト検定[リテラシーレベル]教科書 eBook : 園部康弘, 藤丸卓也, 安福香花, 住原達也, 一般社団法人データサイエンティスト協会: Kindleストア
Amazon.co.jp: 合格対策 データサイエンティスト検定教科書 eBook : 園部康弘, 藤丸卓也, 安福香花, 住原達也, 一般社団法人データサイエンティスト協会: Kindleストア
ディープラーニングG検定(ジェネラリスト) 法律・倫理テキスト
Amazon.co.jp: ディープラーニングG検定(ジェネラリスト) 法律・倫理テキスト eBook : 古川 直裕, 渡邊 道生穂, 柴山 吉報, 一般社団法人 日本ディープラーニング協会: Kindleストア
Amazon.co.jp: ディープラーニングG検定(ジェネラリスト) 法律・倫理テキスト eBook : 古川 直裕, 渡邊 道生穂, 柴山 吉報, 一般社団法人 日本ディープラーニング協会: Kindleストア
問題
DS検定リテラシーレベルのまとめ記事や解説動画へのリンクはこちら







コメント
非階層クラスター分析の問題ですが、あらかじめクラスター数を指定するのが正解なのではないでしょうか?
ありがとうございます。
ご指摘の通り、非階層クラスター分析はあらかじめクラスター数を指定します。
修正します。
60 66 75 80 81 83 88 94 100 の第一四分位 中央値を除いた前半が 60 66 75 80 と偶数個なので 66と75の中間 70.5とすべきではないでしょうか?
データが9個の場合、間隔は8個。
4等分で2間隔置きに第一四分位、第二四分位、第三四分位
60⇔66⇔(Q1:75)⇔80⇔(Q2:81)⇔83⇔(Q3:88)⇔94⇔100
よって、
第一四分位:75
第二四分位(中央値):81
第三四分位:88
と思ったのですが、
調べてみると、そもそも四分位の算出はいろいろバリエーションがありそうです。
私の算出方法はQ0,Q4包括するパターンで、
スギサキヒロユキさんはQ0,Q4排他するパターンのようです。
これ以外にもいろいろありそうなのですが、ちょっと調べきれませんでした。
Excelなどが分かりやすく、以下2種類のようです。
QUARTILE.INC→Q0,Q4包括パターン
QUARTILE.EXC→Q0,Q4排他パターン
これはおそらくパーセンタイルでも発生する事象です。
DS検定としてはどちらにすべきはわかりません。
包括or排他と明示してくれているか、選択肢から察するか、そもそもこれに関する計算問題は出ない可能性があります。
なかなか包括的な説明も見つからないのですが、
Wikipedia(英語)のQuartileが一番包括的な感じです。
https://en.wikipedia.org/wiki/Quartile
私のイメージはこの中のmethod 3に該当します。
PythonのNumPy,Pandasなどはこのページの説明だとmethod 3のようです。
Rはmethod 2ではありますが、これも中央値包括なので、今回に関しては類似手法に該当します。
実際に計算させてみると、
Wikipedia上の情報でmethod 3と書かれているExcelのQUARTILE.INC、PythonのNumPy,Pandasはmethod 2の振る舞いをしますね。
Juliaもmethod 2です。
MATLAB、Scilabがmethod 3の振る舞いをしました。
MAEを計算させる問題の解答がMSEになっています。
ありがとうございます。
修正しました。
協調フィルタリングとコンテンツベースフィルタリングの説明逆な気がします。
ありがとうございます。
修正しました。
正解選択肢の内容が間違ってますね。
逆というか、協調フィルタリング側が間違っている状態でした。
コンテンツベースの方も間違っているように見えますが、
「ユーザーの過去の行動や好み」もアイテムの属性であり、意図的にアイテムやコンテンツを選択肢に記載しない問題にしたため、
私自身が混乱してしまっていたようです・・・。
回答後の説明文はあっている状態でした。
画像フレームレートは動画のフレームレート(fps)のことでしょうか?
はい。
一般的な動画のfpsに近いものと思ってもらってOKです。
※以下、たぶんDS検定では聞かれないと思いますが念のため…
画像フレームレートという表現ですが、世間一般の表現ではありません。
動画関連の処理も結局は画像処理であり、画像処理の段階では動画とは見なしていない場合の文脈で出てきやすいです。
(物体識別、物体検出、姿勢推定等)
注意点としては、1秒間に処理できる画像の数であって、解析対象の動画fpsと一致しないこともある点です。
一定周期で間引いたり、リアルタイム性が求められ且つ処理が間に合わないことがはっきりしている場合は、ベストエフォートで処理されるため、周期性がないこともあります。
このサイトでいつも勉強させてもらっています。
1箇所、気になる箇所がありますので、ご確認いただけませんでしょうか。
【問題】
ある都市の住宅価格データの分析で、「広さ」の特徴に注目した場合、中央値のデータ活用の利点について正しい選択肢を回答する問題
【気になる点】
正解は「中央値は外れ値の影響を受けにくい・・・データのゆがみが軽減され、妥当な特徴を把握できる」なのですが、「×」となっています。解説では、これが正解とかいてあるので、単純に正解設定がずれているのかもしれません。ご確認お願いします。
ありがとうございます。
ご指摘の通り、解説側が正しく、選択肢側の設定がずれていました。
ご認識の解釈で問題ありません。
選択肢の正解項目は修正しました。
既にどなたかが記述していましたらすみません。
”分散分析は3つ以上の群の平均値の差の比較”ではなく、2群以上で適用可能ではないでしょうか?スチューデントt検定(独立標本)は2群の1WAY-ANOVAと等価と記憶しています。また、対応2標本のt検定があり、これは2WAY-ANOVAの特殊型と記憶していますが、いかがでしょうか?
おっしゃる通りだと思います。
少し補足させていただくと、ここは追及しだすと結構複雑で、(カテゴライズの話と条件次第では計算過程が一致してしまう話)
DS検定の範囲としては、以下記載の「主な用途」に着目した方が適切だと思っています。
計算方法が一致するという理屈を持ってきてしまうと、
おそらく手法のカテゴライズを無視したものとなってしまうため、
t検定と分散分析は分けておいた方が良いと思っています。
■ t検定
◇ スチューデントt検定(独立2標本t検定)
・2つの独立したグループの平均値を比較する。
・例: AクラスとBクラスのテストの平均点を比較する。
・主な用途: 2群間の平均値の差の検定。
◇ 対応のあるt検定(ペアt検定)
・同じ被験者に対して2つの条件を比較する。
・例: ダイエット前後の体重を比較する。
・主な用途: 同一被験者の2条件間の平均値の差の検定。
◇ 1標本t検定
・1つのグループの平均値が既知の値と異なるかどうかを検定する。
・例: あるクラスの平均点が全国平均と異なるかどうかを検定する。
・主な用途: 1群の平均値と既知の値の差の検定。
■ 分散分析(ANOVA)
◇ 1WAY-ANOVA
・一つの独立変数(因子)を持つ分散分析。
・例: 異なる肥料が植物の成長に与える影響を調べる。
・主な用途: 3群以上の平均値の差の検定。
◇ 2WAY-ANOVA
・二つの独立変数(因子)を持つ分散分析。
・例: 肥料の種類と日照時間が植物の成長に与える影響を同時に調べる。
・主な用途: 複数の因子が従属変数に与える影響の検定。
ご回答ありがとうございました。
なるほど、DS検定用の対策が必要そうですね。勉強になります。
ある新しい音楽ストリーミングサービスが〜
で始まる問題において
唐突に「問」の文字が入っている。
ありがとうございます。
修正しました。
LLMを利用して某システムのテストデータを作成したい
の設問で
選択肢①の解説
むしろ〜であるべきところ
もしろ〜となっている
ありがとうございます。
修正しました。
データの散布図を作成する際
における縦軸に要因、横軸に結果が逆ではないでしょうか。
どうもです。確認しました。
確かに逆でした・・・。
こちらのおかげでDS検定合格できました
これでDX推進完全制覇ですありがとうございます(`・ω・´)ゞ
合格おめでとうございます!
(私はITパスポート取ってないので羨ましいです・・・)
ROC曲線はモデルの感度(True Positive Rate)と特異度(1-False Positive Rate)の関係を可視化するとありますが、正しくはモデルの感度(True Positive Rate)と1-特異度(False Positive Rate)ではないでしょうか?
ありがとうございます。
ご指摘の件は、以下の問題の解説部分についてですね。
「以下の選択肢で、ROC曲線とAUC(Area under the curve)を用いてモデルの精度を評価するための説明として正しいものはどれか。」
OhBoiさんの認識が正解です。
ROC曲線は「感度(TPR)vs 偽陽性率(FPR=1−特異度)」で描きます。
選択肢の文面では「感度 vs 特異度」としていましたが、解説ではFPR(=1−特異度)を明示すべきでした。
もともと「引っかけ要素」として特異度を出していましたが、解説の段階で私自身も混乱してしまい不正確な記述になってしまいました。
修正いたします。