統計学を学ぶがるたろう
シバ先生の仕事が終わるまで
音楽を聴いて待っています
すみません、お待たせしました。
何を聴いてるんですか?
「レインボウ・ハーツ」です!
僕の大好きなバンドで。
おお、レインボウ・ハーツですか。私が学生のころに熱狂的ブームを起こしたバンドですね。私も大ファンなんですが、がるたろうくんの世代では珍しいですね。
お父さんが昔よく流してて、僕も好きになったんです!
「あにまるチューブ」でライブ動画を見たんですが、ボーカルやギター、みんな個性的でめっちゃカッコよくて!
「個性」が際立つと大変魅力的ですね。本日のテーマを考える上でちょうどよいキーワードが出てきました。
本日は「データの個性」を学びましょう。データを理解するには、データの個性を知ることが出発点です。
データにも個性があるんですか!?
- 統計学基礎編では、データのうち、「量的データ」を扱います。今回、がるたろうは量的データの個性とは何かを学んでいきます。
- 量的データとは、数値で表されて、各数値の差(間隔)に意味があるデータです。量的データ以外のデータは質的データと呼ばれ、種類や順序など分類のみを表します。
分布
データとは現実のある側面を記録化したものでした。データの元になっている現実の多くの側面・ドラマは削ぎ落とされて、味気なくなってしまうんでしたんね。
例えば、バナナの長さのデータを2つ見てみましょう。
例)
スーパーAのバナナの長さデータ(cm):
18.6 16.2 19.3 17.7 19.7 20.1 16.7
スーパーBのバナナの長さデータ(cm):
18.2 17.9 18.3 18.2 18.4 18.3 18.1
数値だらけで目がチカチカしますね。
うーん、どちらのデータもただの数値の羅列になってしまって、個性はなくなっているように思えます。
データの気持ちになると、美味しいバナナから味気ない姿になってしまって、落ち込んでいるんではないでしょうか
いえ、カンタンに希望を捨ててはいけません。
まだ個性はしっかりあるのです!
量的データの個性は、データの中にある観測値の傾向によって決まるのです。バナナの長さデータの観測値から読み取れることはありますか?
スーパーAのバナナの長さデータ(大きさ7):
18.6 16.2 19.3 17.7 19.7 20.1 16.7
スーパーBのバナナの長さデータ(大きさ7):
18.2 17.9 18.3 18.2 18.4 18.3 18.1
うーん、、、観測値はバラバラで、いろいろな値をとっている、ということでしょうか?
1つ1つの観測値はバラバラな値をとっていることは、重要な視点ですね。
データを見やすくするために、観測値を小さい順に並べかえてみましょうか。さらに何か読み取れますか?
<並べかえ後>
スーパーAのバナナの長さデータ(大きさ7):
16.2 16.7 17.7 18.6 19.3 19.7 20.1
スーパーBのバナナの長さデータ(大きさ7):
17.9 18.1 18.2 18.2 18.3 18.3 18.4
並び替えると少し目に優しいですね!特徴としては、そうですね、うーん、、、
あっ!
スーバーBは、長さがだいたい同じようなバナナを売っていて、スーパーAは長さが不揃いなバナナを売っているように見えます!
いい視点です!
どのようにして読み取りましたか?
はい!スーパーBのデータは観測値が18cm付近に同じような値がまとまっていて、スーパーAのデータは16cmから20cm台と、観測値がバラけていました!
がるたろうくん、かんぺきな考察です。
わーい!えへへ
いまのように、観測値1つ1つを見るのでなく、「観測値全体のまとまり」で見た時に浮かび上がる特徴があります。このことをデータの「分布」と言います。
分布が、データの個性なんです。
数値の羅列でも、「まとまり」で特徴見ると、データの個性が見えてくるんですね!
分布の特徴をとらえるには、観測値の全体の傾向について以下を問いかけてみましょう。
・どんな値をとるか?
・各値の出やすさはどうなっているか?
がるたろうくんは先ほど無意識にできていたと思います
毎回、先ほどのように、データの観測値を並べかえて傾向を見ればよいのでしょうか!?
そうですね、このようなデータだとどうでしょうか。
例)データの大きさ10,000
502, 489, 500, 610, 550, 495, 520, 574, 563, 510, 592, …
525, 567, 534, 470, 569, 572, 523 537, 546, 520, 582, …
〜〜〜
… 532, 485, 530, 510, 556, 595, 630, 549, 565, 532, 562
うわああ
頭が痛くなるのでちょっと無理そうです。。。
データが大きい(中身の観測値が多い)と、辛いですね。
小さいデータでも、たくさんの種類のデータを分析するときは観測値を並べて見る方法は辛くなります。
ですが安心してください。データをそのまま見て理解するのは難しいので、統計学では分布の特徴をとらえる便利な方法が研究されています。
安心しました!
分布の特徴をとらえるには、2つのアプローチがあります。データの「可視化」と「統計量」です。
可視化
可視化はグラフを使った表現で、データの分布のカタチを目で見えるようにします。直感的に分布を把握するには大変便利な方法です。
データの個性がカタチとして見えるようになるんですね!
可視化の方法はたくさんありますが、基本となる「ヒストグラム」と「箱ひげ図」を学びます。
ヒストグラム
箱ひげ図
統計量
グラフはパッとわかりやすい反面、一覧性や客観的な議論、特徴をとらえたあとの分析の展開には向いていません。
そこで、分布の個性を「数値」で表すことを考えます。
数値はコンパクトで一覧性があり、客観的です。そして数値は数式に自由に組み込めるので、分析の発展性があります。
データに計算を加えて加工した数値を「統計量」と言います。分布の特徴を表す統計量を考えていきます。
データの中の観測値も数値ですが、また新たな数値をつくるんですか?数値が多くなってより大変にならないでしょうか?
新たに見る数値を増やす(観測値+統計量)のではなく、見るべき数値を減らす(観測値→統計量)のです。
観測値が10個のデータでも、観測値が10,000個のデータでも、全ての観測値の情報を使って、2つの統計量にデータの分布の特徴を「凝縮」させます。
分布の特徴を表す2つの数値だけ見れば、全ての観測値を見なくてもデータの個性(分布)がわかるようにするのです。
濃ゆーい情報が詰まった数値をつくるわけですね。
見る数値が少ないと助かります!
2つの統計量とはどんなものがあるんでしょうか?
データの分布は、どの数値を代表的な値にすえて(分布の位置)、そこからどのように数値がばらけているのか(分布の形状)で捉えられます。
位置と形状について、2つの統計量を学んでいきます。
分布の代表的な値を伝える:平均
分布の形状(値のバラつき)を伝える:分散(標準偏差)
他にも、分布の形状を示す統計量はありますが、統計学の基礎編では扱いません。
・分布の左右対称具合を示す統計量(歪度)
・分布のとんがり具合を示す統計量(尖度)
- 平均や分散を「統計量」と言わずに、分布の「特性値」と呼ぶ場合があります。
- 手元のデータで分析の全て完結する場合は、特性値と呼ぶことがあります。一方、手元のデータを超えた範囲に対してデータを使う場合は、データから計算された平均や分散は統計量といいます。
- 本サイトでは、最終的にデータを超えた範囲にデータを使うことを考えて、統計量という用語で統一して説明していきます。
まとめ
本日はここまでにしましょう。データを理解するためにはデータの個性である分布を理解すること、そのために可視化と統計量という手段があることを説明しました。
データにも個性があることがわかりました!しっかり復習しておきます!
がるたろうは
今日もたくさん学べたようです!
- 観測値1つ1つを見るのでなく、「観測値全体のまとまり」で見た時に浮かび上がる特徴をデータの「分布」という。
- 分布の特徴は観測値が「どんな値をとるか?」「各値の出やすさはどうなっているか?」を問いかける。
- データをそのまま見て理解するのは難しい。統計学では分布の特徴をとらえる便利な方法がある。「可視化」と「統計量」の2つ。
- 可視化はグラフを使った表現で、データの分布のカタチを目で見えるようにする。
- 統計量は、全ての観測値の情報を使って、2つの統計量にデータの分布の特徴を「凝縮」する。分布の特徴を表す統計量だけ見れば、全ての観測値を見なくてもデータの分布がわかるようにする。