珍しさの評価

統計学を学ぶがるたろう
今日は大根堀りをしています

うわあ、めちゃくちゃ長い大根が掘れました!

おおー、この長さは珍しいですね!

激レア大根、写真とっておこうっと。パシャり。

本日も統計学を学んだら、ラビさんに大根もちにしてもらいましょう。

わーい、もちもちの大根もち楽しみ!

今日は、どういったことを学ぶんでしょうか?
(いつもの流れで大根と関係したりして…)

本日は「感覚とデータのつながり」を考えていきます

がるたろうくんと私は、なぜこの大根を見て「とても長い」・「珍しい」と思ったのでしょうか?

やっぱり大根だ!

なぜ珍しいと思ったか、うーん、それは、何でしょう、こう、なんか感覚的にそう思いました
、、、あらためて「なぜか」と考えると難しいですね

この直感のメカニズムは、これまで学んだ平均と標準偏差で説明できるんです。

えっそうなんですか!?

学習内容
  • 前回まで、データの中に含まれる観測値全ての情報を使ってデータの分布の特徴を表す統計量(平均、分散・標準偏差)を考えてきました。
  • 今回は、データの分布の特徴(平均、分散・標準偏差)が定まったときに、観測値1つ1つの評価をする話です。

珍しいという感覚

何かを「とても長い」「珍しい」とかが言えるのは、自分の中に「評価の基準」があるからです。

「普通これくらい」、っていう感覚はありますね

これまでがるたろうくんや私は、スーパーなどで多くの大根を見てきたと思います。実は、これは、無意識に観測を繰り返し、大根の長さデータを頭の中に蓄積していたのです。

そして、無意識に、大根の長さの平均と、標準的なばらけ具合(標準偏差)のイメージを形成して、これが珍しさの評価の基準となっているんです。

これまで学んできたデータの分布の特徴の統計量が、無意識に心に刻まれていた、ということでしょうか。

先ほど掘り出した大根を見たとき「とても長くて珍しい」と感じたのは「平均よりも長く」、「その乖離が標準的なばらけ具合を大きくこえていた」からです。

、、、そんな考えしたことなかったですが、言われてみるとそう思えてきます!

珍しいと思う感覚の背後には、平均や標準偏差のイメージが実は存在していたなんて、なんかオドロキです!

今がるたろうくんは平均と標準偏差を理解しているので、感覚的ではなく、客観的に珍しさを計算することができます

珍しさを計算できるんですか!?

あるデータの中での各観測値の珍しさは、観測値の偏差(=観測値−平均値)は標準偏差の何倍か、で定義することができます。

観測値の偏差を標準偏差でわればいいんですね!

この数値は「基準値」と言います。観測値1つ1つに対して基準値が計算できます。(呼び方はいろいろあります)

基準値がゼロから離れるほど、珍しいことになります。

基準値が0は偏差ゼロ、つまり観測値が平均と一致しており、珍しくありません。

平均はデータを代表する値ですからね!

基準値がマイナス1から1の範囲内の時も、観測値はよくある標準的なばらつきの範囲内であり、珍しくはありません。

基準値がもっとゼロから大きく離れてくると、珍しい観測値と評価できます。基準値が±2をこえるような観測値は全体のざっくり5%程度しかなく、珍しいと言えるでしょう。

このように、標準偏差は、そのデータの中での珍しさの基準、珍しさを評価する物差しとして使えます。

標準偏差はこんな使い方もできるんですね!

シバ先生の補足
  • 観測値を基準値に変換することを基準化または標準化と言います。
  • 基準値は、様々な用語で表現されて、統一がされていないので、混乱せずに計算の中身に注目しましょう。基準値、標準得点、標準化変量、基準値、Zスコア、どれも同じです。
  • 分子も分母も「偏差」で似ていますが、観測値の偏差はデータの中の観測値1つ1つで違いますが、標準偏差はデータの分布の特徴を表す1つの数値で、全観測値で同じ値です。

違和感の検出

珍しさを数値で測れることがわかりました!実際に使う場面としてはどんなときがあるんでしょうか?

まずは、違和感の検出です。あるデータにおいて、ものすごく珍しい観測値が入って来た時に違和感を感じる、この感覚が重要となります。

例えば、先ほど掘り出した大根よりさらに長い、3mの巨大な大根が掘れたとしましょう。

もう腰を抜かしますね。恐怖。

これまで見てきた大根と違いすぎて、違和感が出てくるわけです。「これは大根にしては長すぎる、俺の知ってる大根じゃない」と。

なので、そもそもこれは大根じゃないんではないだろうか?といったように、大根という前提を疑うわけです

新種の野菜の可能性もあるわけですね!

珍しすぎて違和感を感じる、そしてそもそもの前提を疑うという思考の流れは、今後学ぶ「データを使って判断する」際にもでてくるのでぜひ覚えておきましょう。

メモメモ!

大根はすでに感覚を持っていて理解しやすいですが、感覚を持っていない対象についても、データから珍しさの指標を計算すれば、こうした違和感をもてます。

例えば「チェリモヤ」という南米のフルーツは見たことがないんじゃないでしょうか。森のアイスクリームと呼ばれる、日本の柿のような柔らかいフルーツです。

見たことありません!食べてみたい!じゅるり。

こうした見たことないフルーツでも、データさえあれば、大きさや重さなどの珍しさを評価できるわけです。

見たこともないのに評価できるってすごいですね!

珍しさの比較

基準値はあるデータ内での観測値の相対的な珍しさという、単位が無い指標なので、単位や性質の違うデータの観測値を比較・評価する際にも使えます

例えば、数学と国語のテストでがるたろうくんは両方とも70点をとったとしましょう。

どちらのテストも学年全体の平均点は50点でしたが、数学のテスト結果の標準偏差は10点、国語は20点でした。

このとき、がるたろうくんのそれぞれの点数を基準値で表すとどうなりますか?

えーと、数学の点数の偏差が70-50=20点、これを標準偏差の10点で割ると、基準値は2ですね。

国語の点数は、偏差は同じ20点で、標準偏差が20点だから基準値は1となります!

数学の70点の方が珍しいと言える、ということでしょうか

その通りです。平均よりも高い方で珍しいので、今回のテストでは、数学の70点は国語の70点よりも価値ある点数といえます。

数値そのものの大きさで比較するのではなく、基準値をベースに比較することで、色々なデータの観測値の価値を比較できるんですね!

まとめ

本日はここまでにしておきましょうか。観測値の珍しさを評価する方法をご紹介しました。

今回の内容は、これから学んでいく、データを使って判断する方法を理解する上でもとても重要になりますよ。

平均と標準偏差を使って観測値の珍しさを評価できることを学べました。しっかり復習しておきます!

がるたろうは
今日もたくさん学べたようです!

ことらノート
  • 珍しいと思う感覚の背後には、平均や標準偏差のイメージが実は存在していた!
  • あるデータの中での各観測値の珍しさは、観測値の偏差(=観測値−平均値)は標準偏差の何倍か、で計算できる。これを基準値という。基準値がゼロから離れるほど、珍しいと言える。
  • 基準値を使って、あるデータにおいて、ものすごく珍しい観測値が入って来た時に違和感を感じることができる。珍しすぎて違和感を感じる、そしてそもそもの前提を疑うという思考の流れは今後学ぶデータを使った判断でも出てくるようだ。
  • 基準値は、単位や性質の違うデータの観測値を比較・評価する際にも使える。