データの関連性を確認する|相関係数をわかりやすく解説

はじめに

統計解析を行う中で、「2つのデータに何か関係がありそうだ」
と感じる場面はとても多いです。

例えば、以下のような関係が気になる場面があります

このように、2つの変数の間にどの程度の関連があるかを確認したいときに使われる代表的な指標が、相関係数です。

今回は、統計の基礎として非常に重要な相関係数の考え方、見方、数式の意味、注意点について、わかりやすく丁寧に整理・解説します。

相関係数の値の意味

相関係数 r の値は、次のように解釈されます。

正の相関

r = 1 に近い場合、強い正の相関があります。
つまり、一方が増えるほど、もう一方も増える関係です。

負の相関

r = -1 に近い場合、強い負の相関があります。
つまり、一方が増えるほど、もう一方は減る関係です。

相関がほとんどない状態

r = 0 に近い場合、線形な関係がほとんどありません。
つまり、片方が増えても減っても、もう一方値は関係なく変動することを示します。

ポイント
相関係数は「関係の向き」と「関係の強さ」を同時に表しています。

相関係数の目安

相関の強さには絶対的な基準があるわけではありませんが、実務ではおおよそ次のように見ることが多いです。

相関係数の大きさは、一般に以下のように解釈されます
相関係数の範囲 解釈
0.0 ~ 0.2 ほとんど相関なし
0.2 ~ 0.4 弱い相関
0.4 ~ 0.7 中程度の相関
0.7 ~ 1.0 強い相関

負の値の場合も、符号は関係の向きを表しているだけなので、強さを見るときは絶対値で考えます。

たとえば、

・r = 0.75 → 強い正の相関
・r = -0.87 → 強い負の相関

といった形で判断することになります。

まずは散布図で見るのが基本

相関係数を確認する前に、まずは散布図を書くことがとても大切です。

なぜなら、相関係数は便利な指標ですが、数字だけでは見えないことがあるからです。

たとえば、「一部の外れ値が強く影響している」「曲線的な関係なのに、線形な相関は弱く見える」
といったケースでは、相関係数の数字だけを見ると誤解しやすくなります。

大切な考え方
統計では、「まず図で全体像を見る、その後に数値で確認する」
この順番がとても重要です!

相関係数の数式

代表的な相関係数として、ピアソンの積率相関係数があります。
数式は次のように表されます。

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r = \frac{ \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y}) }{ \sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2} \sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2} }

初めて見ると少し長く感じますが、意味を分けて考えると理解しやすくなります。

数式の記号の意味

この式に出てくる記号は、次のような意味です。

記号の意味

記号 意味
xi x の各データ
yi y の各データ
x の平均値
ȳ y の平均値
n データ数
“`

改めて数式を見ると、XとYそれぞれで「平均からの差分=偏差」を取っていることがわかります。
つまり、それぞれのデータが平均からどれだけずれているかを使って、2つの変数が同じ方向に動くのか、逆方向に動くのかを見ています。

数式が何をしているのか?(詳細に)

ここは統計の基礎として、数式についてもう少し丁寧に見てみます。

1. 平均からのずれを見る

まず、各データについて

  • xi − x̄ :各 x データが平均値からどれだけ離れているか
  • yi − ȳ :各 y データが平均値からどれだけ離れているか

を計算しています。

これは、各データが平均より

・大きいのか (正なのか)
・小さいのか (負なのか)
・どのくらい離れているのか(程度)

を見るために計算されています。

2. ずれ同士を掛け合わせる

次に、次の式を考えます。

(xixˉ)(yiyˉ)(x_i-\bar{x})(y_i-\bar{y})

これには大事な意味があります。

xの状態 yの状態 相関
平均より大きい 平均より大きい
平均より小さい 平均より小さい
平均より大きい 平均より小さい
平均より小さい 平均より大きい

つまり、同じ方向に動くとプラス、逆方向に動くとマイナスになります。

この値を全部足し合わせることで、2つの変数が全体として同じ方向に動いているのか、逆方向に動いているのかが分かります。

3. データのばらつきで割って調整する

ただし、このままだとxやyの単位やスケールによって値が大きく変わってしまいます。

そこで分母にある

i=1n(xixˉ)2i=1n(yiyˉ)2\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2} \quad \text{と} \quad \sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}

で割ることで、ばらつきの大きさをそろえています。
この操作によって、相関係数は常に -1 ~ 1 の範囲に収まるようになります。

ここがポイント
分子は「2つの変数がどれだけ一緒に動くか
分母は「それぞれのばらつきの大きさ
これらを複合して相関係数が算出されます

相関係数を見るときの注意点

ここはとても大切です。
相関係数は便利ですが、万能ではありません
この項では相関分析をする際の注意点について記載します。

1. 相関があっても因果関係とは限らない

これは統計で特に有名な注意点です。

たとえば、ある2つの変数に相関があったとしても、

  • 片方がもう片方の原因とは限らない
  • 第3の要因が影響しているかもしれない
  • 偶然そう見えているだけかもしれない

という可能性があります。

重要
相関がある = 原因であるとは言えません!

2. 線形関係しかうまく捉えられない

ピアソンの相関係数は、直線的な関係を見る指標です。

そのため、たとえば山型やU字型の関係がある場合、明らかに関係がありそうでも相関係数は0に近くなることがあります。

つまり、相関係数が低い = 関係がないと即断するのは危険です。

3. 外れ値の影響を受けやすい

1つだけ極端なデータがあると、相関係数が大きく変わることがあります。

そのため、相関係数を見るときは

散布図を確認する
外れ値の有無を見る
必要なら外れ値の扱いを検討する

ことが大切です。(データ分析初心者がよく遭遇する失敗です)

✔ あわせて読みたい
外れ値とは?データ分析で注意すべき理由と見つけ方を解説【統計基礎】

統計解析のするうえで要注意。”外れ値”について体系的に解説!

Excelでも確認できる

相関係数はExcelでも簡単に計算できます。代表的なのは CORREL関数 です。
たとえば、xのデータが A2:A11、yのデータが B2:B11 にある場合、

Excel関数
=CORREL(A2:A11, B2:B11)
CORREL関数は、2つのデータの相関係数(関連の強さ)を求める関数です。
値は -1 ~ 1 の範囲を取り、1に近いほど強い正の相関、-1に近いほど強い負の相関、0に近いほど相関が弱いことを示します。

で相関係数を求めることができます。

手軽に使えるので、統計の初学者にもおすすめです。
ただし、計算結果だけで判断せず、散布図とセットで見ることは忘れないようにしたいです。

まとめ

相関係数は、2つの変数の関連性を数値で把握するための基本的な指標です。

統計を学び始めると、まず平均や分散に触れ、その次に「データ同士の関係」を見たくなる場面が増えてきます。そのとき、相関係数はとても良い入口になります。
数式だけ見ると少し難しく感じるかもしれませんが、平均からのずれが同じ方向に動くかどうかを見ていると考えると、ぐっと理解しやすくなるはずです。

また、Excel分析・統計解析のご相談をココナラで受け付けています。
「このデータどう見ればいい?」「Cpkや管理図を実務で使いたい」
といった内容も対応可能です。

・製造業・品質管理の実務目線でサポート
・分析代行/解釈のアドバイスどちらもOK
・見積もり・相談は無料です

ご興味のある方は、記事サイドバーのリンクからお気軽にご相談ください。

「データの関連性を確認する|相関係数をわかりやすく解説」への2件のフィードバック

  1. Hello i am kavin, its my first occasion to commenting
    anywhere, when i read this post i thought i could also create
    comment due to this brilliant post.

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール