統計学を学ぶがるたろう
今日はフルーツジュースの
飲み比べをしています
ラビさん、この「はちみつキャロット」も上品な甘みがすごく美味しかったです!
ありがと!まだ新作あるからどんどん飲んでね!
私は「ヘビービターグレープフルーツ」が気に入りました。
大好きな「半熟バナナ」もう一杯飲もうっと
ふうー飲んだ飲んだ!ラビさんたくさんのジュースありがとうございました!
はーい!がるちゃん統計学のお勉強がんばってね!
はい!!
ラビさんの新作ジュースどれも美味しかったですね。
さて、今回のジュース飲み比べは、違うコップに分けられているから味の違いが「比較」できましたね。
同じコップに入れちゃうと、味が混ざっちゃって比べにくくなっちゃいますしね。
そう、混ざると見分けがつきにくいんです。データの分布の可視化においても、同じことを考えないといけません。
統計学の飲み比べ?
データの比較
統計学の現実の活用として、新薬の効果判断の事例があることをご紹介しましたね。
初回の授業ですね!覚えています!
新薬を投与する被験者集団、投与しない被験者集団、の2つに分けて実験を行い、2つのデータを比較・分析します。
前回学んだヒストグラムで、2つのデータを比較してみると、例えば以下のようになります。
重なってわかりづらいですね!
ヒストグラムはスペースをとってしまう、2つ以上重ねて比較しようとすると見づらいという視覚上の弱点があります。
複数データの分布の比較では、以下のような可視化の方法が便利です。この見せ方を「箱ひげ図」と言います。
ヒストグラムにあった「頻度」の情報は失われますが、コンパクトになって比較はしやすくなります。
重なりがなく、分布の違いがわかる気がします!こんな見せ方もあるんですね。
それにしても箱にひげって、変な名前ですね笑
図の特徴をしっかり表す無駄のないネーミングなんですよ!
箱ひげ図
箱ひげ図のつくりかたをみていきましょう。
まず、観測値を小さい順に並べて考えるのはヒストグラムと一緒です。
そのあと、ある範囲の値は箱で表し、
それ以外はひげのような線で表します
箱とひげだとだいぶ扱いが違いますが、さかい目にある「四分位点」とは一体何者でしょうか?
「パーセンタイル(分位点)」という考えかたを理解する必要があります。詳しくみていきましょう。
パーセンタイル
パーセンタイルとは、指定したランキング(観測値の相対的位置)に対応する値のことです。
観測値を小さい順に並べて、1番小さい値は?大きい値は?真ん中の値は?というように、指定した位置から対応する値を探しにいきます。
観測値を見に行く前に、まずランキングを考えることがポイントでしょうか。
そうです、ランキング→対応する値という、値にアクセスする順番が大事です!
どういう時に使われるんでしょうか?
例えば大学入試を考えましょう。定員が決まっていて入試点数上位100名まで入学可能、といった場合、受験生にとってはランキングが非常に重要なものになります。
定員が決まっていたらし烈な争いですね!
このとき、最高得点は(1番は)?最低得点は(ドベは)?上位10%の人は何点以上とっているだろうか?など、ランキングに対応する値を知りたくなってきます。
こういうの知りたいときはよくありますね!このようにデータを見にいくのがパーセンタイルということですね。
- 今後学んで行く平均、分散などの統計量は、「まずランキング(位置)」という発想はなく、観測値の値をそのまま見にいきます。
- パーセンタイルの中でもデータの真ん中の位置となる値は「中央値」と呼ばれます。統計学の基礎編では扱いませんが、データの分布が左右対称でなく偏りがある時は、分布の代表的な値は平均でなく中央値がより適切な値として使われることがあります。(所得や体重のデータなど)
X%の位置の値は、Xパーセンタイルと言います。例えば30%の位置の値は30パーセンタイルです。
ランキングを、「%(パーセント)」で指定するのはなぜでしょうか?
データの大きさ(観測値の個数)によらずに、全体の中の「相対的な位置」としてランキングを表現できるからです。
データの大きさが5のデータと、13のデータを考えましょう。注目するランキングとして、「ちょうど真ん中」に位置する値を知りたいとしましょう。
データA:1, 2, 3, 4, 5
データB:1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13
えーと、真ん中は、データAだと3番目、、、データBだと7番目の値ですね!データによって違いますね。
このようにデータによって順位が変わってしまうので、どのランキングの話をしているのか混乱してくるんです。
パーセントでちょうど真ん中というランキングを表現すると、どちらのデータも「50%の位置」となります。
いまどちらのデータも真ん中のランキングに注目している、というのがわかりやすくなるんですね!
よく使う「データの一番小さいもの」、「データの一番大きいもの」、これもパーセントによる指定なんです。最小値が0%、最大値が100%になります。
確かに、これもデータの大きさによらない表現ですね!
そのほかに、観測値全体を等分していったときに、1/4(=25%)の位置、3/4(=75%)の位置、といったものがよく使われます。
以下は観測値のパーセントによるランキングがキレイにおける場合です。
データA:1, 2, 3, 4, 5
パーセンタイル:0% →1, 25% →2, 50%→3, 75%→4, 100% → 5
データB:1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13
パーセンタイル:0% →1, 25% →4, 50%→7, 75%→10, 100% →13
パーセントにすることで、各データの大きさによらずに、興味ある位置の値が知れるんですね。
また、少し細かな話ですが、指定したパーセントの位置に対応する観測値がないときは、数値を補完をします。
例えば、データの個数が偶数の場合、50%の位置(中央値)に対応する値は、両隣にある観測値の平均をとります。
データ:1, 2, 3, 4
50%(中央値)→(2+3)/2 = 2.5
近くの位置にある値で補完する、と!
それでは、箱ひげ図に戻りましょう。
25%の位置の値(25パーセンタイル)を第1四分位点、75%の位置の値(75パーセンタイル)を第3四分位点と言います。この間にある値が箱に入ります。
グラフの見方がわかりました!
外れ値
最後に、この箱ひげ図を見てみましょう。
ひげのはじっこから点がはみ出ていますが、これはなんでしょうか?
箱ひげ図には実は便利なアラート機能がついているのです!
箱ひげ図では「理論的な」最小値と最大値を設定します。この範囲を超えた観測値は、「この観測値は他の観測値と比べると値がかなり違っている」とアラートを出します。
このような観測値は、外れ値またはアウトライアー(outlier)と言います。
外れもの扱いされちゃうんですね
極端な外れ値の存在は計算に大きな影響を与えるので、慎重に扱う必要があります。これから学ぶ平均や分散は外れ値の影響を受けやすく、結果が意図しないものになります。
観測値の計測の正しさや発生要因を確かめて、場合によっては除去したり分析の前提を見直したりします。
外れ値の基準を決める理論的な最小値と最大値はどのように定めるんでしょうか?
「ヒゲの長さは、箱の長さの1.5倍まで」と決めて、それを超えた観測値は外れ値として、ヒゲでなくて点で表します。
ヒゲは無尽蔵に生やさないんですね!
まとめ
今日はここまでにしましょう。データの比較に便利な箱ひげ図とパーセンタイルの考え方をご紹介しました。
ヒストグラムに代わる可視化の手段がわかりました!しっかり復習します!
がるたろうは
今日もたくさん学べたようです!
- 複数データの分布の比較では「箱ひげ図」が便利。パーセンタイルで箱とひげ部分を分ける。
- パーセンタイルとは、指定したランキング(観測値の相対的位置)に対応する値。位置はパーセント(相対的な位置)で指定。X%の位置の値は、Xパーセンタイルと言う。
- ひげの長さは箱の長さの1.5倍まで。ひげを超えた観測値は「外れ値」として点で表される