データ分析において平均・分散などのデータ自体の特徴を把握したら、次は2つの変数(データ)または、それ以上の変数の間に相関関係があるのかを見ていきます。(経済 · 経営分野では、分析のテーマは2つ以上の変数の間の関係にあることが多いです。)
2つの変数間の相関関係の分析はデータ分析の基本であり、その具体的な手法としては散布図や分割表などがあり、これらは2つの変数(データ)の間にどのような関係があるかについての包括的な情報を与えてくれます。
2変数の関係には様々なものがありますが、基本的に直線関係で考えるのが一般的です。例として、「身長(x)が増えるほど、体重(y)も増える」という直線的な比例の関係があると考えるとした時、その線形関係の強さを表す代表値が今回のテーマである共分散と相関係数です。
・共分散 (covariance:cov)
2変数の散布図に右上がりの関係が観察されるとき、その2つの変数には正の相関があることになります。もしこれが右下がりの傾向を示していれば、負の相関関係があることになります。もし、2変数を散布図で表した場合、描かれた点が直線ではなく、バラバラに散らばっていたならば、2変数の間に相関は無い、つまり無相関であるということになります。
このような相関が正か負か、相関の程度が強いのか弱いのか、といった傾向を数値で表したものが共分散です。共分散は以下のように定義されます。
・相関係数
2変数の相関は、共分散を使って表すことができますが、その定義上分析するデータの単位や大きさの影響を受けてしまうという問題があります。もし共分散が100であると言われても、相関が高いのか低いのかはデータの大きさや単位によって変わってくるので、共分散の値からだけでは判断できません。
この問題を解消した代表値が相関係数です。相関係数とは、データの大きさに依存しないよう共分散を標準化したものであり、正の完全相関を 1、負の完全相関を−1 として、2変数の線形関係の強さを測るものです。定義式は以下のように表されます。
相関係数は正の相関のときプラス、負の相関のときマイナスとなります。相関係数の絶対値が大きくなる程、相関度は強くなります。(絶対値の大きさが相関の強さを表すので、相関係数が0.6よりもー0.8の方が相関関係が強いという事になります。)
実際に共分散と相関係数を計算する際には下のような表を書いて整理すると計算しやすいです。
変数間の関連を表現する「相関」の考え方は2つ以上の変量の分析(多変量分析)においてもとても大切な考え方なので、しっかり覚えておきましょう。
次は、ある変量(x)の変化をもうひとつの変量(y)の変化で説明し、それらの変量の間に1次関数の関係(直線の関係)があると仮定する「線形単回帰」の考え方について説明していきます。