母集団と標本

統計学を学ぶがるたろう
今日はバザールに買い物に来ています

SNSで話題のビッグバナナ無事に買えましたね!
食べごたえありそうで楽しみです!じゅるり。

食べる前に、本日も統計学を学んでいきますよ。
このビッグバナナを教材として使います。

しっかり学んでから食べたいと思います、、!
今日はどういう内容でしょうか?

前回まではデータを理解する方法を学びましたね。今回からいよいよ「データを使った判断」を考えていきます。

ついにデータを役立てていくわけですね!
学ぶのが楽しみです!

今回は、ビッグバナナの宣伝「長さの平均30cm以上!」が本当なのかを、データから判断してみましょう。

やってみます!

異なる平均値

さて、全てのバナナの観測ができました。これががるたろうくんの買ったバナナの長さデータですね。

がるたろうのビッグ・バナナセットの長さデータ(大きさ10)
32, 31, 27, 30, 31, 27, 32, 28, 28, 30

それでは、さっそく平均を計算したいと思います!

、、、平均は29.6cmとなります!

ぬぬっ!これは、、、30cmより小さいです!

このデータから、どういう判断ができそうですか?

データの平均は30cmもないので、ビッグバナナの宣伝「長さの平均30cm以上」はウソ!ということになります!

ふむ、直感的にはその判断となる気がしますね

私もビッグ・バナナを1セット買っておいたんです。
こちらで同じように判断をしてもらえますか。

シバ先生のビッグ・バナナセットの長さデータ(大きさ10)
28, 33, 29, 30, 31, 33, 27, 29, 32, 30

はい!では同じように平均を計算します

、、、えーと、
このデータでは平均は30.2cmになります!

うんっ?今度は30cmより大きいです、、!

このデータだとどういう判断になりますか?

このデータによると、ビッグバナナの宣伝「長さの平均30cm以上」は正しい!となります?

うーん、さっきと結論が変わってしまいました、、、
平均は正しく計算できたと思うんですが、結論がコロコロ変わってしまう?

今回のように、データから得られた情報で、データをこえた範囲について判断するときには注意が必要なんです。この判断に潜んでいる問題を考えていきましょう。

全体と一部のズレ

使うデータによって結論が変わってしまうのは、「本当に知りたい情報」と「目の前のデータから得られる情報」に「ズレ」があるからなんです。

ズレ、ですか

先ほど、ビッグバナナの宣伝「長さの平均30cm以上」が正しいかを、目の前のデータの平均から判断しましたね。

はい!これが「目の前のデータから得られる情報」ということですね。

しかし、ビッグバナナの宣伝「長さの平均30cm以上」が正しいかを正確に確かめるには、世の中にあるビッグバナナの「全部」を観測して平均をだす必要があったんです。

しかし私たちが先ほど観測したビッグバナナは、全体の中の「わずか一部」でしかなかったわけです。

一部、、、
うーん、、、
なんか、ぼんやりと、問題がつかめてきました。

頑張って考えを整理してみましょう!

えーっと、本当に知りたい平均は、手元にはないビッグバナナも全部含めて観測して計算する必要があった、、、

でも、目の前のデータは全体の中の一部しか観測していないもので、その一部で計算した平均は、本当に知りたい平均とはズレてくる、ということでしょうか?

その通りです。平均の計算の元になる観測値の範囲が、「全体」と「一部」というズレがあるんですね。

先ほど、データによって異なる平均が得られた理由も同じように説明できますか?

はい!僕の買ったバナナセットとシバ先生のバナナセットは、入っているバナナが1つ1つ違うので、異なる平均が計算されたと思います。

えーとつまり、どちらも全体の一部ですが、全体から一部を決めるパターンがいろいろとあって、そのパターンによって平均も異なるということでしょうか?

その通りです、考えが整理されてきましたね。全体から一部のデータを取り出すパターンは無数にある。これは重要な視点です。

言い換えると、手元にあるデータは、全体から一部のデータを取り出す無数のパターンの中の1つにすぎないということです。

他の可能性もあった、ということですね!
(SFのパラレルワールドみたいな?)

考えをまとめておきましょう。
1)手元のデータは興味ある対象全体の一部
2)一部を取り出すパターンは無数にあり、手元のデータはそのうちの1パターンにすぎない(他の可能性もあった)

このように、データを使って何か判断するときは、データから「一歩ひいて」、本当に知りたい対象との位置付けを明確にすることが大事なんです。

目の前のデータに飛びつかずに、一歩ひいて考えるのが大事なんですね!何だかデータがかわいそうにも思いますが、、

統計学では、「全体」と「一部」というズレの問題を明確に扱うために、この概念に特別な名前をつけています。

・知りたい対象の全体のことを「母集団
・母集団から取り出した一部を「標本
と言います。大変重要な用語なので覚えておきましょう。

重要そうですね!メモメモ

最初に言った「本当に知りたい情報」と「目の前のデータから得られる情報」の「ズレ」とは、
「母集団について知りたい情報」と「標本から得られる情報」にはズレがある、と言い換えられます。

母集団

さっきの例だと母集団は世の中のビッグバナナ全部ですね!
でも母集団ってなんだかつかみどころがないですね、、、世の中のビッグバナナ全部を手に入れることはできないですし

その通りです。母集団とはかなり抽象的なものなんです。
興味ある対象は、色々な理由で分析者がいま完全に見ることが不可能なものが多いからです。

全体があまりに多くて観測できなかったり、そもそも興味のある対象が将来のことだったら、どんなに頑張ってもいま全てを知ることはできないわけです。

ぼんやりとしたものを相手にするんですね。
そんなもやもやした中で母集団と標本の情報の「ズレ」をどうやって解消すればいいんだろう、、、

いい視点ですね。その対処方法が統計学の見せ所になります。次回以降に詳しく学んでいきますよ。

何か秘密のワザがあるわけですね!

データと標本

「標本」は「データ」と全く同じと考えてよいでしょうか?わざわざ別の名前でいわなくてもいいかなと思いましたが

基本的に同じととらえてもらっても大丈夫ですが、状況に応じて言葉の使いわけがされるので、混乱しないようにしてお来ましょう。違いのポイントをご紹介します。

手元のデータだけで分析が完結する場合、つまり手元のデータ=知りたい対象の全ての場合は、標本とは言いません。

一方で、データと言わずに標本と言うときは、手元のデータが母集団の一部であることが明確になります。

そのデータが一部であることを強調するんですね!

また、厳密な使い分けではないですが、データは今手元の具体的なものだけを差す時が多いですが、標本は抽象的な議論の中で使われることが多いですね。

重要なのは、標本という時は、母集団との対応関係を強く意識しているということです。興味の対象が目の前のデータでなく母集団に移っています

目線がデータから母集団に変わっているんですね!

最後に、標本に関する用語をご説明します

これまでデータの中の観測値の個数をデータの大きさと言ってきましたが、データを標本という時には、「標本の大きさ」または「サンプルサイズ」というようになります。

サンプル(sample)は標本の英語での言い方です。サンプルサイズということが一般的なので、これからは標本の大きさを「サンプルサイズ」と言っていきます。

観測値の個数っていう意味は一緒だけど、言い方が変わるんですね!

まとめ

本日はここまでにしておきましょう。データによる判断をするときには、本当に知りたい対象(母集団)とデータ(標本)のズレを意識する必要があることを説明しました。

データに対してこれまで考えてこなかった視点を得ることができました!しっかり復習しておきます!

がるたろうは
今日もたくさん学べたようです!

ことらノート
  • データから得られた情報で、データをこえた範囲について判断するときには注意が必要。「本当に知りたい情報」と「目の前のデータから得られる情報」に「ズレ」があるため。
  • データを使って何か判断するときは、データから「一歩ひいて」、本当に知りたい対象との位置付けを明確にすることが大事
    1)手元のデータは興味ある対象全体の一部
    2)一部を取り出すパターンは無数にあり、手元のデータはそのうちの1パターンにすぎない(他の可能性もあった)
  • 統計学では、
    ・知りたい対象の全体のことを「母集団」
    ・母集団から取り出した一部を「標本」
    と言う
  • 母集団とはかなり抽象的なもの。興味ある対象は、色々な理由で分析者がいま完全に見ることが不可能なものが多いため。
  • 標本という時は、母集団との対応関係を強く意識していて、興味の対象が目の前のデータでなく母集団に移っている。