データの関連性を確認する|相関係数をわかりやすく解説

はじめに

統計解析を行う中で、「2つのデータに何か関係がありそうだ」
と感じる場面はとても多いです。

例えば、以下のような関係が気になる場面があります

  • 1 勉強時間が長いほどテストの点数は高くなるのか
  • 2 気温が高いほどアイスの売上は増えるのか
  • 3 身長が高いほど体重も重くなるのか

このように、2つの変数の間にどの程度の関連があるかを確認したいときに使われる代表的な指標が、相関係数です。

今回は、統計の基礎として非常に重要な相関係数の考え方、見方、数式の意味、注意点について、わかりやすく丁寧に整理・解説します。


相関係数とは何か?

相関係数とは、2つの変数の「関係の強さ」と「向き」を表す指標です。

たとえば、以下のような関係があるかどうかを確認したい場面で使われます。

  • 勉強時間が長いほど、テストの点数も高くなるのか
  • 気温が高いほど、アイスの売上も増えるのか
  • 身長が高いほど、体重も重くなるのか

相関係数は、こうした関係を-1〜1の範囲で数値化したものです。

-1
強い負の相関
0
ほぼ関係なし
1
強い正の相関

例えば、相関係数が1に近い場合は、「片方が増えると、もう片方も増える」という関係が強いことを意味します。

逆に、相関係数が-1に近い場合は、「片方が増えると、もう片方は減る」という関係が強いことを意味します。

また、相関係数が0に近い場合は、「2つの変数にはあまり関係がない」と考えられます。

相関係数は一般に“r”で表されます。


相関係数の値の意味

相関係数 r の値は、次のように解釈されます。

正の相関

r = 1 に近い場合、強い正の相関があります。
つまり、一方が増えるほど、もう一方も増える関係です。

負の相関

r = -1 に近い場合、強い負の相関があります。
つまり、一方が増えるほど、もう一方は減る関係です。

相関がほとんどない状態

r = 0 に近い場合、線形な関係がほとんどありません。
つまり、片方が増えても減っても、もう一方値は関係なく変動することを示します。

ポイント
相関係数は「関係の向き」と「関係の強さ」を同時に表しています。


相関係数の目安

相関の強さには絶対的な基準があるわけではありませんが、実務ではおおよそ次のように見ることが多いです。

相関係数の大きさは、一般に以下のように解釈されます
  • 0.0 ~ 0.2:ほとんど相関なし
  • 0.2 ~ 0.4:弱い相関
  • 0.4 ~ 0.7:中程度の相関
  • 0.7 ~ 1.0:強い相関

負の値の場合も、符号は関係の向きを表しているだけなので、強さを見るときは絶対値で考えます。

たとえば、

・r = 0.75 → 強い正の相関
・r = -0.87 → 強い負の相関

といった形で判断することになります。


まずは散布図で見るのが基本

相関係数を確認する前に、まずは散布図を書くことがとても大切です。

なぜなら、相関係数は便利な指標ですが、数字だけでは見えないことがあるからです。

たとえば、「一部の外れ値が強く影響している」「曲線的な関係なのに、線形な相関は弱く見える」
といったケースでは、相関係数の数字だけを見ると誤解しやすくなります。

大切な考え方
統計では、「まず図で全体像を見る、その後に数値で確認する」
この順番がとても重要です!


相関係数の数式

代表的な相関係数として、ピアソンの積率相関係数があります。
数式は次のように表されます。

r=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2r = \frac{ \sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y}) }{ \sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2} \sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2} }

初めて見ると少し長く感じますが、意味を分けて考えると理解しやすくなります。


数式の記号の意味

この式に出てくる記号は、次のような意味です。

記号の意味

記号 意味
xi x の各データ
yi y の各データ
x の平均値
ȳ y の平均値
n データ数
“`

改めて数式を見ると、XとYそれぞれで「平均からの差分=偏差」を取っていることがわかります。
つまり、それぞれのデータが平均からどれだけずれているかを使って、2つの変数が同じ方向に動くのか、逆方向に動くのかを見ています。


数式が何をしているのか?(詳細に)

ここは統計の基礎として、数式についてもう少し丁寧に見てみます。

1. 平均からのずれを見る

まず、各データについて

  • xi − x̄ :各 x データが平均値からどれだけ離れているか
  • yi − ȳ :各 y データが平均値からどれだけ離れているか

を計算しています。

これは、各データが平均より

・大きいのか (正なのか)
・小さいのか (負なのか)
・どのくらい離れているのか(程度)

を見るために計算されています。


2. ずれ同士を掛け合わせる

次に、次の式を考えます。

(xixˉ)(yiyˉ)(x_i-\bar{x})(y_i-\bar{y})

これには大事な意味があります。

xもyも平均より大きい → プラス
xもyも平均より小さい → プラス
xは大きいがyは小さい → マイナス
xは小さいがyは大きい → マイナス

つまり、同じ方向に動くとプラス、逆方向に動くとマイナスになります。

この値を全部足し合わせることで、2つの変数が全体として同じ方向に動いているのか、逆方向に動いているのかが分かります。


3. データのばらつきで割って調整する

ただし、このままだとxやyの単位やスケールによって値が大きく変わってしまいます。

そこで分母にある

i=1n(xixˉ)2i=1n(yiyˉ)2\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2} \quad \text{と} \quad \sqrt{\sum_{i=1}^{n}(y_i-\bar{y})^2}

で割ることで、ばらつきの大きさをそろえています。

この操作によって、相関係数は常に -1 ~ 1 の範囲に収まるようになります。

ここがポイント
分子は「2つの変数がどれだけ一緒に動くか
分母は「それぞれのばらつきの大きさ
これらを複合して相関係数が算出されます


具体例で考える

たとえば、勉強時間とテスト点数を考えます。

勉強時間が長い人ほど点数が高い
勉強時間が短い人ほど点数が低い

という傾向があれば、正の相関がありそうです。

一方で、気温と暖房使用量であれば、

気温が高いほど暖房使用量は減る
気温が低いほど暖房使用量は増える

となるので、負の相関がありそうです。

このように、相関係数は現象の方向性をつかむのにとても便利です。
身近な事例を元に、関係性の感触を掴んでおくと迷いにくいです(いきなり工学やアカデミックな内容で考えると混乱します。。。)


相関係数を見るときの注意点

ここはとても大切です。
相関係数は便利ですが、万能ではありません
この項では相関分析をする際の注意点について記載します。

1. 相関があっても因果関係とは限らない

これは統計で特に有名な注意点です。

たとえば、ある2つの変数に相関があったとしても、

  • 片方がもう片方の原因とは限らない
  • 第3の要因が影響しているかもしれない
  • 偶然そう見えているだけかもしれない

という可能性があります。

重要
相関がある = 原因であるとは言えません!


2. 線形関係しかうまく捉えられない

ピアソンの相関係数は、直線的な関係を見る指標です。

そのため、たとえば山型やU字型の関係がある場合、明らかに関係がありそうでも相関係数は0に近くなることがあります。

つまり、相関係数が低い = 関係がないと即断するのは危険です。


3. 外れ値の影響を受けやすい

1つだけ極端なデータがあると、相関係数が大きく変わることがあります。

そのため、相関係数を見るときは

散布図を確認する
外れ値の有無を見る
必要なら外れ値の扱いを検討する

ことが大切です。(データ分析初心者がよく遭遇する失敗です)

✔ あわせて読みたい
外れ値とは?データ分析で注意すべき理由と見つけ方を解説【統計基礎】

データ分析で注意すべき「外れ値」の見分け方についてわかりやすく解説!


Excelでも確認できる

相関係数はExcelでも簡単に計算できます。

代表的なのは CORREL関数 です。

たとえば、xのデータが A2:A11、yのデータが B2:B11 にある場合、

=CORREL(A2:A11,B2:B11)

で相関係数を求めることができます。

手軽に使えるので、統計の初学者にもおすすめです。
ただし、計算結果だけで判断せず、散布図とセットで見ることは忘れないようにしたいです。


実務でどう活かすか

相関係数は、実務でもかなり出番があります。

たとえば、

工程条件と品質特性の関係を見る
売上と広告費の関係を見る
測定値同士の関連を見る
説明変数候補の当たりをつける

といった場面で、最初の確認としてよく使われます。

特に、「まず全体傾向をざっくり把握したい」というときに便利です。

一方で、相関係数だけで結論を出すのではなく、必要に応じて

回帰分析
・各種仮説検定
・層別
・時系列分析

など、次の分析につなげていくことが重要です。


まとめ

相関係数は、2つの変数の関連性を数値で把握するための基本的な指標です。

この記事のポイント

  • 相関係数は -1 ~ 1 の範囲をとる
  • 正の値なら同じ方向、負の値なら逆方向の関係を示す
  • 0に近いほど線形な関係は弱い
  • 数式では「平均からのずれ」を使って関係性を見ている
  • 相関があっても因果関係を示すわけではない
  • 散布図とあわせて確認することが大切

統計を学び始めると、まず平均や分散に触れ、その次に「データ同士の関係」を見たくなる場面が増えてきます。そのとき、相関係数はとても良い入口になります。

数式だけ見ると少し難しく感じるかもしれませんが、平均からのずれが同じ方向に動くかどうかを見ていると考えると、ぐっと理解しやすくなるはずです。

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール