株初心者が本気で儲けるブログ

株式投資・仮想通貨に関連するテーマについて取り扱ってます。

【統計学入門】分散と標準偏差について~基本統計量その2

 

www.dmjtmj-stock.com

 

前回は平均・中央値・最頻値といったいわゆる代表値について取り上げましたが、今回は、データの散らばり具合を示すものである分散・標準偏差、そして四分位範囲について説明していきます。

 


・分散 (var)

 分散とは、データの中心(平均)のまわりでの散らばりの度合いを示すものであり、「平均値から測った各観測値の距離の2乗」を平均したものでS²で表されることが多いです。また変数Xの分散であることを強調した場合はSxなどと表記されることもあります。

 

分散は具体的には以下のように定義されます。

f:id:oruka199665:20170216035307j:plain

 

平均の近くにデータが集まっているときは分散は小さくなり、反対に平均から離れたところにも多くのデータがある場合には分散は大きくなります。

 

 例

f:id:oruka199665:20170219025431j:plain

(参照:http://www.gijodai.ac.jp/user/ayami/2005/class7.html) 

 

 

標準偏差 (standard deviation:sd)

 

 

 標準偏差とは分散の2乗根、S = √S² であり、sd, s.d., D, σ などと表記されます。つ上の定義式から分かるように分散は平均からの距離を2乗しているので、分散の単位は元の尺度とは異なったものになっています。

 

なので分散の平方根をとるということは、これをもとの尺度に戻してやるということになります。(つまり分散が4なら、標準偏差は√4=2となります。) ちなみに模試の偏差値は「(自分の得点-平均点)÷標準偏差×10+50」という公式で計算されています。

 

 分散·標準偏差の計算例:

データ1 {2,4,9,6,7,2} n = 6

平均 = ¯ x = (2 + 4 + 9 + 6 + 7 + 2)/6 = 5

分散= S2 = (22 + 42 + 92 + 62 + 72 + 22 −6∗52)/(6−1) = 8

標準偏差= S = √8 ≈ 2.83

 

・四分位範囲 (interquartile range) 

 まず四分位範囲とは、第3四分位点と第1四分位点の間の距離のことを指します。そして、この四分位点とはなんぞやという話ですが、四分位点とは データを小さい順に並べたときに4分割したときの間に来る点である。

 

つまり2番目の四分位点である第2四分位点と前回紹介した中央値(メディアン)は同じ数字を指します。ちなみに四分位点の求め方は中央値(メディアン)のときと同じ理屈です。(データ数が偶数なので、全体を4分割してその前後の値の平均をとって四分位点を求める。)

 

四分位範囲は、単純に最大値から最小値を引いた範囲より値が不安定な裾の値が除かれているため、安定性が高い広がりの尺度といえます。 

 

 例:

第1四分位点 (Q1 = (20+30)/2 = 25、

第3四分位点 (Q3 = (85 + 85)/2 = 85 より、

 

四分位範囲= Q3 −Q1 = 85−25 = 60

 

・範囲と割合の対応

分布全体の中に占める位置を大まかに掴む概念として、シグマ区間というものがあります。2シグマ区間は2σ区間  = (xの平均+ 2Sx) ∼ (xの平均−2Sx) と定義されます。

 

また、データが標準正規分布(平均 0、分散 1 の正規分布のこと)である場合、シグマ区間と分布全体に占める割合の関係は下のようになります。

 

・標準正規分布の場合のσ区間に含まれるデータの割合と偏差値

1シグマ区間 約 2/3               偏差値 40 ∼ 60  

2シグマ区間 約 95 %       偏差値30 ∼ 70  

3シグマ区間 約 99 ∼ 100 %    偏差値20 ∼ 80  

 

f:id:oruka199665:20170219024211p:plain

(参照:http://d.hatena.ne.jp/Zellij/20121104/p1)

 

これが何を意味するのかというとあるテストにおいて受験者の約68%が偏差値40~60に属しているということを意味します。最近自殺などで色々と注目されている電通様が昔、広告やCMは偏差値40~60の奴向けに作れと言っていたのが、外部に漏れてプチ炎上していましたが、これは統計学的にみると別におかしいことではないんですよね。

 

そして、2σ区間には全体の約95%が含まれます。これは模試などで算出される偏差値でいうと、偏差値 30 から 70 の範囲の生徒は全体の 95 %を占めるということを意味しています。

 

つまり、偏差値 70 以上または偏差値 30 以下というのはあわせて全体の 5 %しかいないということで、なので偏差値が70以上の東大京大などに行く人は(100-95)÷2=2.5(残り半分の2.5%は偏差値30以下の割合になります)で、同世代ヒエラルキーにおいて上位2.5%ということであり、超エリートなのです。

 

 このような模試の偏差値は、平均μが50で分散σが10ですが、テストの点数をそのまま計算してもこのようなきれいな数字になりません。

 

統計学では、テストの点数などの実際のデータから出てきた数字を模試の偏差値のような見やすい数字に置き換える作業のことを標準化といい、標準化は分析したデータを第三者に理解して貰いやすくするために、統計解析において必須な作業であると言えます。

 

まとめ

Q:分散と標準偏差ってなに?

A:分散はデータの数値が平均からどれだけ離れている(散らばっている)か、標準偏差は分散の平方根(√)

 

www.dmjtmj-stock.com

www.dmjtmj-stock.com