分布

統計学を学ぶがるたろう
シバ先生の仕事が終わるまで
音楽を聴いて待っています

すみません、お待たせしました。
何を聴いてるんですか?

「レインボウ・ハーツ」です!
僕の大好きなバンドで。

おお、レインボウ・ハーツですか。私が学生のころに熱狂的ブームを起こしたバンドですね。私も大ファンなんですが、がるたろうくんの世代では珍しいですね。

お父さんが昔よく流してて、僕も好きになったんです!

「あにまるチューブ」でライブ動画を見たんですが、ボーカルやギター、みんな個性的でめっちゃカッコよくて!

「個性」が際立つと大変魅力的ですね。本日のテーマを考える上でちょうどよいキーワードが出てきました。

本日は「データの個性」を学びましょう。データを理解するには、データの個性を知ることが出発点です。

データにも個性があるんですか!?

学習範囲
  • 統計学基礎編では、データのうち、「量的データ」を扱います。今回、がるたろうは量的データの個性とは何かを学んでいきます。
  • 量的データとは、数値で表されて、各数値の差(間隔)に意味があるデータです。量的データ以外のデータは質的データと呼ばれ、種類や順序など分類のみを表します。

分布

データとは現実のある側面を記録化したものでした。データの元になっている現実の多くの側面・ドラマは削ぎ落とされて、味気なくなってしまうんでしたんね。

例えば、バナナの長さのデータを2つ見てみましょう。

例)
スーパーAのバナナの長さデータ(cm):
18.6 16.2 19.3 17.7 19.7 20.1 16.7
スーパーBのバナナの長さデータ(cm):
18.2 17.9 18.3 18.2 18.4 18.3 18.1

数値だらけで目がチカチカしますね。

うーん、どちらのデータもただの数値の羅列になってしまって、個性はなくなっているように思えます。

データの気持ちになると、美味しいバナナから味気ない姿になってしまって、落ち込んでいるんではないでしょうか

いえ、カンタンに希望を捨ててはいけません。
まだ個性はしっかりあるのです!

量的データの個性は、データの中にある観測値の傾向によって決まるのです。バナナの長さデータの観測値から読み取れることはありますか?

スーパーAのバナナの長さデータ(大きさ7):
18.6 16.2 19.3 17.7 19.7 20.1 16.7
スーパーBのバナナの長さデータ(大きさ7):
18.2 17.9 18.3 18.2 18.4 18.3 18.1

うーん、、、観測値はバラバラで、いろいろな値をとっている、ということでしょうか?

1つ1つの観測値はバラバラな値をとっていることは、重要な視点ですね。

データを見やすくするために、観測値を小さい順に並べかえてみましょうか。さらに何か読み取れますか?

<並べかえ後>
スーパーAのバナナの長さデータ(大きさ7):
16.2 16.7 17.7 18.6 19.3 19.7 20.1
スーパーBのバナナの長さデータ(大きさ7):
17.9 18.1 18.2 18.2 18.3 18.3 18.4

並び替えると少し目に優しいですね!特徴としては、そうですね、うーん、、、

あっ!

スーバーBは、長さがだいたい同じようなバナナを売っていて、スーパーAは長さが不揃いなバナナを売っているように見えます!

いい視点です!
どのようにして読み取りましたか?

はい!スーパーBのデータは観測値が18cm付近に同じような値がまとまっていて、スーパーAのデータは16cmから20cm台と、観測値がバラけていました!

がるたろうくん、かんぺきな考察です。

わーい!えへへ

いまのように、観測値1つ1つを見るのでなく、「観測値全体のまとまり」で見た時に浮かび上がる特徴があります。このことをデータの「分布」と言います。

分布が、データの個性なんです。

数値の羅列でも、「まとまり」で特徴見ると、データの個性が見えてくるんですね!

分布の特徴をとらえるには、観測値の全体の傾向について以下を問いかけてみましょう。
・どんな値をとるか?
・各値の出やすさはどうなっているか?

がるたろうくんは先ほど無意識にできていたと思います

毎回、先ほどのように、データの観測値を並べかえて傾向を見ればよいのでしょうか!?

そうですね、このようなデータだとどうでしょうか。

例)データの大きさ10,000
502, 489, 500, 610, 550, 495, 520, 574, 563, 510, 592, …
525, 567, 534, 470, 569, 572, 523 537, 546, 520, 582, …
〜〜〜 
… 532, 485, 530, 510, 556, 595, 630, 549, 565, 532, 562

うわああ

頭が痛くなるのでちょっと無理そうです。。。

データが大きい(中身の観測値が多い)と、辛いですね。
小さいデータでも、たくさんの種類のデータを分析するときは観測値を並べて見る方法は辛くなります。

ですが安心してください。データをそのまま見て理解するのは難しいので、統計学では分布の特徴をとらえる便利な方法が研究されています。

安心しました!

分布の特徴をとらえるには、2つのアプローチがあります。データの「可視化」と「統計量」です。

可視化

可視化はグラフを使った表現で、データの分布のカタチを目で見えるようにします。直感的に分布を把握するには大変便利な方法です。

データの個性がカタチとして見えるようになるんですね!

可視化の方法はたくさんありますが、基本となる「ヒストグラム」と「箱ひげ図」を学びます。

ヒストグラム

箱ひげ図

統計量

グラフはパッとわかりやすい反面、一覧性や客観的な議論、特徴をとらえたあとの分析の展開には向いていません。

そこで、分布の個性を「数値」で表すことを考えます。
数値はコンパクトで一覧性があり、客観的です。そして数値は数式に自由に組み込めるので、分析の発展性があります

データに計算を加えて加工した数値を「統計量」と言います。分布の特徴を表す統計量を考えていきます。

データの中の観測値も数値ですが、また新たな数値をつくるんですか?数値が多くなってより大変にならないでしょうか?

新たに見る数値を増やす(観測値+統計量)のではなく、見るべき数値を減らす(観測値→統計量)のです。

観測値が10個のデータでも、観測値が10,000個のデータでも、全ての観測値の情報を使って、2つの統計量にデータの分布の特徴を「凝縮」させます。

分布の特徴を表す2つの数値だけ見れば、全ての観測値を見なくてもデータの個性(分布)がわかるようにするのです。

濃ゆーい情報が詰まった数値をつくるわけですね。
見る数値が少ないと助かります!

2つの統計量とはどんなものがあるんでしょうか?

データの分布は、どの数値を代表的な値にすえて(分布の位置)、そこからどのように数値がばらけているのか(分布の形状)で捉えられます。

位置と形状について、2つの統計量を学んでいきます。
分布の代表的な値を伝える:平均
分布の形状(値のバラつき)を伝える:分散(標準偏差)

シバ先生の補足

他にも、分布の形状を示す統計量はありますが、統計学の基礎編では扱いません。

・分布の左右対称具合を示す統計量(歪度)
・分布のとんがり具合を示す統計量(尖度)

用語の補足
  • 平均や分散を「統計量」と言わずに、分布の「特性値」と呼ぶ場合があります。
  • 手元のデータで分析の全て完結する場合は、特性値と呼ぶことがあります。一方、手元のデータを超えた範囲に対してデータを使う場合は、データから計算された平均や分散は統計量といいます。
  • 本サイトでは、最終的にデータを超えた範囲にデータを使うことを考えて、統計量という用語で統一して説明していきます。

まとめ

本日はここまでにしましょう。データを理解するためにはデータの個性である分布を理解すること、そのために可視化と統計量という手段があることを説明しました。

データにも個性があることがわかりました!しっかり復習しておきます!

がるたろうは
今日もたくさん学べたようです!

ことらノート
  • 観測値1つ1つを見るのでなく、「観測値全体のまとまり」で見た時に浮かび上がる特徴をデータの「分布」という。
  • 分布の特徴は観測値が「どんな値をとるか?」「各値の出やすさはどうなっているか?」を問いかける。
  • データをそのまま見て理解するのは難しい。統計学では分布の特徴をとらえる便利な方法がある。「可視化」と「統計量」の2つ。
  • 可視化はグラフを使った表現で、データの分布のカタチを目で見えるようにする。
  • 統計量は、全ての観測値の情報を使って、2つの統計量にデータの分布の特徴を「凝縮」する。分布の特徴を表す統計量だけ見れば、全ての観測値を見なくてもデータの分布がわかるようにする。