データ

統計学を学ぶがるたろう
今日はサッカー観戦にきています

パンスケ頑張れー!

ピッ、ピッ、ピーー!

あーっと!ここでホイッスル!
パンスケ・パンダ渾身の追い上げも届かず!ホームのアニマル・ワン、惜しくも3対4で敗れました!!

ああ〜!

がるたろうが
応援していたチーム
アニマル・ワンは
敗れてしまいました

ああ惜しかったな!
もうすぐ同点だったのに。

とても熱戦でした。後半のパンダ選手の怒涛のハットトリックはドラマチックでしたね。

気迫が伝わってきてシビれました!

ただ、どんな熱戦もドラマチックな展開もデータ上は単に「アニマル・ワンの負け」とだけ記録されてしまいます。

なんかデータになると味気ないですね

その通り、データとは味気ないものなんです。本日は統計学の出発点であるデータについて学んでいきましょう。

サッカーに熱中しすぎて統計学を学びにきてたの忘れてた。ノートノート。

データの概要

データとは現実のある側面を記録化したもので、数値や文字の羅列になります。データの元になる現実の多くの側面は記録化されず情報が失われてしまいます。

サッカーの試合の勝ち負けも、背後には色々な「アツい」試合展開があるのですが、アニマル・ワンの通算試合結果を記録化したデータ上は、ただ勝ち負けの結果が並ぶだけです。

現実のドラマが失われるから味気ないんですね!

今後、データの話題で非常によく使う言葉として、以下の「観測値」という用語をおさえておいてください。

はい!大事そうな用語、メモメモ…!

統計学の用語
  • 現実のある側面(興味のある対象)を観察し、数値や文字などで情報を記録化する活動を「観測」と言います。研究室での実験、アンケート調査、センサーによる自動記録など、様々な観測の方法があります。
  • 1つ1つの観測の結果を「観測値」と言います。観測値はデータを構成する最小の要素となります。

データは見た目は味気ないものです。しかし、データにすることで得られるメリットもたくさんあるんです。

嬉しい面も知りたいです!

まず、データは保管・蓄積ができて、他者に共有することができます。これによって、過去の事実から有用な知識をみんなで積み上げることができるのです。

みんなでシェアできるのはいいですね!

また、どんな複雑な現実の側面もデータになると、一定の種類のフォーマットになりますそうすると、同じようなやり方で分析ができるのです。

例えば、「ことらの体長」と「ベンチャー企業の売上」は全く違う現実の側面ですが、データとしては数値が羅列されたフォーマットになり、同じ分析手法が使えます。

元はぜんぜん違っても、データになれば似たものどうしになるわけですね!

シバ先生の補足
  • データは大きく分けて量的データ質的データに分かれます。さらに細かく分けられますが、基礎編ではまずこの2つを知っておけば大丈夫です。
  • 量的データ:数値で表され、各数値の差(間隔)に意味があるデータ
  • 質的データ:種類や順序など、分類を意味するデータ(カテゴリーデータとも呼ばれる)、数値で表されていても数値の差(間隔)に意味が無い
  • 例)オス:1、メス:0と数値で表されたデータがあった場合、分類を意味して、各数値の差(1-0=1)に意味はないため、質的データとなります。
  • データの種類によって、分析手法が変わります。量的データは、のちに学ぶ平均や分散といった計算が適用できます。質的データはこうした計算はできません。
  • 統計学の基礎編では、量的データのみを扱っていきます。

そして、色々なデータを組み合わせることで、現実をただ見ているだけでは気づけない知識も得られます。データという世界を経由して現実を見れるのです。

例えば、日本のある会社の売上げと、遠く離れたアメリカの景気の関係。現実では直接見たり考えたりすることが難しい関係性も、売上と景気のデータを並べて見ることで、ヒントを得ることができます。

現実からデータの世界にもっていくと色々なメリットがあるんですね!

データの収集目的

データが存在する理由は、誰かがある目的をもってデータを収集しているからです。この点は忘れてはなりません。

自らデータを収集する際は、目的、つまり自分がデータを使ってやりたいことをまず決めてから、必要なデータを収集するのです。

何をしたいのかが大事なんですね!

自分で収集していないデータを使って分析するときは注意が必要です。

現在はインターネットで様々なデータが利用可能となっており、このようなデータを使う場合もあれば、すでに組織で蓄積されたデータを分析する場面もあります。

その際、データの元になっている現実の対象は何か、データが収集された目的、どうやって収集したか、使用する際の注意点を確認することを忘れないようにしましょう。

気をつけたいと思います!

観測値とデータ

データ分析をする際、1つの観測値だけでは情報が少なすぎて有効な分析ができません。通常、多くの観測値を1回の観測(実験や調査)でまとめて手に入れます

ある分析目的のために得られた「観測値のまとまり」が1つのデータとなります。

観測値1つ1つをデータというのかと思っていました。
1つのデータの中に、たくさんの観測値が詰まっているということなんですね。

感覚として観測値のこともデータ、と言いたいと思います。ただし、統計学を学ぶうえでは混乱の元になりやすいので、私の説明では使いわけたいと思います。

データの大きさ

どういった混乱があるんでしょうか?

よく混乱するのは、あるデータに含まれる観測値の数を言いたいときです。統計学では、データの大きさ(サイズ)という表現を使います。

データの大きさ…!
あまり馴染みがない表現ですね

例えば、あるデータの観測値が10個あるとき、「データの数は10」とは言いません。「データの数は1つ」であり、「データの大きさは10」と言います。

ふむふむ

なんか、データは箱のようなもので、観測値がパンパンに詰まると箱も大きくなっていくイメージですね。

別の対象について調査を行い、観測値が5個のデータを追加で得たとしましょう。このとき、追加で得たデータの大きさは5、手元にあるデータの数は2つ(大きさ10のデータと、大きさ5のデータ)、と言います。

使い分けのイメージがつきました!

シバ先生の補足
  • のちのち、「データの大きさ(サイズ)」のことを、「標本の大きさ」や「サンプルサイズ」と言うようになります。
  • 説明はその時にまた詳しく行いますが、目の前のデータだけを問題にするときはデータの大きさ(サイズ)、目の前のデータを超えた予測や判断をする場合、データは「標本」と呼ばれるようになり、標本の大きさやサンプルサイズという用語が使われます。

まとめ

本日はここまでにしましょう。データの概要と用語を学びました。「観測値」や「データの大きさ」など、なじみの薄い用語は、その意味を意識して徐々に慣れていきましょう。

しっかり復習しておきます!

がるたろうは
今日もたくさん学べたようです!

ことらノート
  • データとは現実のある側面を記録化したもの。データを得る活動は観測と呼ばれて、観測された値を観測値と言う。
  • データにすることで蓄積やみんなで共有したり、同じような分析手法が使えたり、色んなデータを組み合わせることができたりと、メリットがある。
  • データは収集目的がある。自分で収集していないデータを使って分析するときは注意が必要。対象や目的、収集方法などを確認する。
  • 観測値をひとまとめにしたものがデータ。データの中の観測値の個数は「データの大きさ」という(データの数とは言わない)。