
はじめに
データ分析を行う際、最も基本となるのが
・平均
・分散
・標準偏差
という3つの指標です。
これらは、データにおける「中心(代表的な値)」や「バラつきの大きさ」を表すために使われます。
例えば、同じ平均点のテストでも
・全員が平均付近の点数を取っている場合
・点数が大きくばらついている場合
では、データの性質は大きく異なります。
このようなデータの特徴を数値として表すために「平均」「分散」「標準偏差」が使われます。
これらは統計学だけでなく、品質管理やデータ分析、機械学習といった幅広い分野で利用される非常に重要な指標です。
この記事では
- 平均とは何か
- 分散とは何か
- 標準偏差とは何か
について、基礎から丁寧に解説します。
平均とは
平均(mean)とは
データの中心を表す代表値
です。
データが複数あるとき、その全体の傾向を一つの値で表すために用いられます。
例えば、次のようなデータがあったとします。
| 人 | Aさん | Bさん | Cさん | Dさん | Eさん |
|---|---|---|---|---|---|
| 点数 | 10 | 12 | 8 | 15 | 5 |
このとき、平均値を求めると
となり、全体の代表する平均値は「10」となります。
平均の数式
あらためて「平均値」を数式で理解します。
平均値の数式は、アルファベットで次のように表記します。
分散とは
平均が「中心」を表す指標であるのに対して、分散(variance)は
データのばらつきの大きさ
を表す指標です。
そしてこの指標が統計解析の世界では最も重要な指標といっても、過言ではありません。
以下に事例を用意したので、計算の過程を見てみましょう
| データ | 値 | 平均 | ばらつき |
|---|---|---|---|
| データA | 9, 10, 10, 11, 10 | 10 | 小さい |
| データB | 2, 5, 10, 15, 18 | 10 | 大きい |
どちらのデータも平均は10ですが、データBのほうが平均から離れた値が多く、ばらつきが大きいことが分かります。
このような「データのばらつきの大きさ」を数値で表したものが分散です。
分散の考え方
分散は次の3ステップで求めます。
例えば、データA「9, 10, 10, 11, 10」の分散を計算してみます。
| データ | 平均との差 | 平均との差の2乗 |
|---|---|---|
| 9 | -1 | 1 |
| 10 | 0 | 0 |
| 10 | 0 | 0 |
| 11 | 1 | 1 |
| 10 | 0 | 0 |
平均との差をそのまま足すと、プラスとマイナスが打ち消し合ってしまいます。
そのため、平均との差を2乗してから平均を求めます。
分散の数式
分散についても数式について振り返っておきましょう。
標準偏差とは
分散はばらつきを表す便利な指標ですが、1つ欠点があります。
それは、単位が2乗になってしまうことです。
| 指標 | 単位 |
|---|---|
| 元のデータ | mm |
| 分散 | mm² |
| 標準偏差 | mm |
分散は平均との差を2乗しているため、単位も2乗になります。
そこで、分散の平方根を取って、元の単位に戻したものを標準偏差と呼びます。
標準偏差の考え方
例えば、先ほどのデータAの分散が0.4だった場合、標準偏差は次のようになります。
つまり、このデータは平均からおよそ0.63程度ずれていることを意味します。
標準偏差の数式
標準偏差は、平均からどの程度離れているかを元の単位で表せるため、分散よりも直感的に理解しやすい指標です。
平均・分散・標準偏差の関係
3つの指標の役割は次のように整理できます。
改めて確認してみましょう。
| 指標 | 意味 |
|---|---|
| 平均 | データの中心 |
| 分散 | ばらつきの大きさ |
| 標準偏差 | ばらつきを分かりやすくした値 (単位をもとに戻したもの) |
上記の内容をまとめると、それぞれ
平均 → データの中心
標準偏差 → データのばらつき
を表しています。統計では、この2つをセットで考えることが非常に重要です。
工学・品質管理で重要な理由
平均と標準偏差は、特に工学や品質管理の分野で重要です。
製造業では「製品の寸法」「重量」「強度」「温度」といったデータを収集し、
・平均値が目標値に近いか?
・ばらつきは十分に小さいか?
を確認することが多いです。
上記を満たしているような工程は安定した工程であると判断できます。
(このことは、”工程能力指数Cpk”を用いると共通の指標で判断することができます。
一方で「平均値が規格に近い」もしくは「標準偏差(バラつき)が大きい」場合は工程が不安定である可能性があります。
「平均」「標準偏差」といった指標は別記事にて解説している
✅工程能力指数(Cpk)
✅管理図
✅各種統計解析
などの基礎となる重要な指標です。
Excelで管理図を柵瀬宇する方法について詳しく解説!
統計解析の中で最も使用される手法のひとつ”t検定”について手順・結果の解釈をわかりやすく解説!
まとめ
この記事では、平均・分散・標準偏差について解説しました。
ポイントを整理すると次の通りです。
- 平均はデータの中心を表す指標
- 分散はデータのばらつきを表す指標
- 標準偏差は分散を分かりやすくした指標
統計では
平均 → データの中心
標準偏差 → データのばらつき
という2つの視点でデータを見ることが重要です。
これらの指標は、統計解析の最も基本となる考え方です。
データ分析を行う際は、まず「平均」と「標準偏差」を確認し、データの特徴を理解することから始めましょう!
標準偏差てどう足し合わせるの?分散の加法性について詳しく解説!