Amazon Prime ユーザーには無料で提供中!
統計学では、確率変数を単位に依存しないスケールへと変換するために「標準化」という手法を用います。
これにより、あるデータの平均との乖離が、標準偏差何個分にあたるのかを検討することが出来、そのデータがどの程度珍しい値なのかを確率的に評価することが出来ます。
統計学でもっとも利用される指標の1つである相関係数は、2変数の共分散をそれぞれの標準偏差の積で割って算出します。
この「標準偏差の積で割る」というのも、共分散を2変数それぞれの単位に依存しないスケールへと変換するために行われるという説明が、もっぱらテキストではなされます。
たとえば、とある個体の身長・体重データの共分散が 20 である場合、2変数の関係上は身長が5cm増加すると体重は4kg程度増加する傾向があると言えそうですが、これは共分散の単位が(cm・kg)であるからです。
この身長データの単位がmmであった場合、共分散は200(mm・kg)でないと対応しません。
このように、共分散は2変数の単位に依存して変化してしまうため、その大きさを評価する際には、それぞれの標準偏差の積で割ることで、つまり身長単位・体重単位の積の影響を取り除くことで、異なるデータ群の共分散の大きさを比較できるように相関係数という指標が求められます。
この度、そもそも「なぜ共分散を標準偏差の積で割って相関係数という値を定めようというモチベーションが生まれたのか」といった趣旨の質問が受講生から出されました。
どの学問においても、理論が生まれた背景そのものまでを探るには相当の学習が必要ですが、ここでは高校数学を少しだけ超過する範囲で上記の質問について考察してみようと思います。
関心のある方は、下記PDFをご参照ください。