平均・分散・標準偏差とは?統計の基本指標をわかりやすく解説【統計基礎】

はじめに

データ分析を行う際、最も基本となるのが

・平均
・分散
・標準偏差

という3つの指標です。

これらは、データにおける「中心(代表的な値)」「バラつきの大きさ」を表すために使われます。

例えば、同じ平均点のテストでも

全員が平均付近の点数を取っている場合
点数が大きくばらついている場合

では、データの性質は大きく異なります。

このようなデータの特徴を数値として表すために「平均」「分散」「標準偏差」が使われます。
これらは統計学だけでなく、品質管理やデータ分析、機械学習といった幅広い分野で利用される非常に重要な指標です。

この記事では

  • 平均とは何か
  • 分散とは何か
  • 標準偏差とは何か

について、基礎から丁寧に解説します。

平均とは

平均(mean)とは

データの中心を表す代表値

です。
データが複数あるとき、その全体の傾向を一つの値で表すために用いられます。
例えば、次のようなデータがあったとします。

例:5人のテスト点数
Aさん Bさん Cさん Dさん Eさん
点数 10 12 8 15 5

このとき、平均値を求めると

平均値は
x̄ = (10 + 12 + 8 + 15 + 5) 5 = 10

となり、全体の代表する平均値は「10」となります。

平均の数式

あらためて「平均値」を数式で理解します。

平均値の数式は、アルファベットで次のように表記します。

= データの総和 データ数 = x1 + x2 + ・・・ + xn n = n i=1 xi n

分散とは

平均が「中心」を表す指標であるのに対して、分散(variance)は

データのばらつきの大きさ

を表す指標です。
そしてこの指標が統計解析の世界では最も重要な指標といっても、過言ではありません。

以下に事例を用意したので、計算の過程を見てみましょう

例:2つのデータの比較
データ 平均 ばらつき
データA 9, 10, 10, 11, 10 10 小さい
データB 2, 5, 10, 15, 18 10 大きい

どちらのデータも平均は10ですが、データBのほうが平均から離れた値が多く、ばらつきが大きいことが分かります。

このような「データのばらつきの大きさ」を数値で表したものが分散です。

分散の考え方

分散は次の3ステップで求めます。

① 各データと平均の差を求める(偏差)
② 偏差を2乗する(偏差平方)
③ 偏差平方の平均を求める

例えば、データA「9, 10, 10, 11, 10」の分散を計算してみます。

データ 平均との差 平均との差の2乗
9 -1 1
10 0 0
10 0 0
11 1 1
10 0 0
分散は
= 1 + 0 + 0 + 1 + 0 5 = 0.4

平均との差をそのまま足すと、プラスとマイナスが打ち消し合ってしまいます。

そのため、平均との差を2乗してから平均を求めます。

分散の数式

分散についても数式について振り返っておきましょう。

分散 = (x1 – x̄)2 + (x2 – x̄)2 + ・・・ + (xn – x̄)2 n

標準偏差とは

分散はばらつきを表す便利な指標ですが、1つ欠点があります。

それは、単位が2乗になってしまうことです。

例:長さデータの場合
指標 単位
元のデータ mm
分散 mm²
標準偏差 mm

分散は平均との差を2乗しているため、単位も2乗になります。

そこで、分散の平方根を取って、元の単位に戻したものを標準偏差と呼びます。

標準偏差の考え方

① 分散を求める
② 分散の平方根を取る
③ 元の単位に戻して、ばらつきを直感的に表す

例えば、先ほどのデータAの分散が0.4だった場合、標準偏差は次のようになります。

標準偏差は
= √0.4 = 0.63

つまり、このデータは平均からおよそ0.63程度ずれていることを意味します。

標準偏差の数式

標準偏差 = √分散
σ = (x1 – x̄)2 + (x2 – x̄)2 + ・・・ + (xn – x̄)2 n

標準偏差は、平均からどの程度離れているかを元の単位で表せるため、分散よりも直感的に理解しやすい指標です。

平均・分散・標準偏差の関係

3つの指標の役割は次のように整理できます。
改めて確認してみましょう。

指標意味
平均データの中心
分散ばらつきの大きさ
標準偏差ばらつきを分かりやすくした値
(単位をもとに戻したもの)

上記の内容をまとめると、それぞれ

平均 → データの中心
標準偏差 → データのばらつき

を表しています。統計では、この2つをセットで考えることが非常に重要です。

工学・品質管理で重要な理由

平均と標準偏差は、特に工学や品質管理の分野で重要です。

製造業では「製品の寸法」「重量」「強度」「温度」といったデータを収集し、
・平均値が目標値に近いか?
・ばらつきは十分に小さいか?

を確認することが多いです。

上記を満たしているような工程は安定した工程であると判断できます。
(このことは、”工程能力指数Cpk”を用いると共通の指標で判断することができます。

一方で「平均値が規格に近い」もしくは「標準偏差(バラつき)が大きい」場合は工程が不安定である可能性があります。

「平均」「標準偏差」といった指標は別記事にて解説している

工程能力指数(Cpk)
管理図
各種統計解析

などの基礎となる重要な指標です。

✔ あわせて読みたい
Excelで管理図を作る方法|Xbar-R管理図で工程の異常を見抜く手順

Excelで管理図を柵瀬宇する方法について詳しく解説!

✔ あわせて読みたい
Excelで実践 T検定|使う局面と具体的な手順

統計解析の中で最も使用される手法のひとつ”t検定”について手順・結果の解釈をわかりやすく解説!

まとめ

この記事では、平均・分散・標準偏差について解説しました。

ポイントを整理すると次の通りです。

  • 平均はデータの中心を表す指標
  • 分散はデータのばらつきを表す指標
  • 標準偏差は分散を分かりやすくした指標

統計では

平均 → データの中心
標準偏差 → データのばらつき

という2つの視点でデータを見ることが重要です。
これらの指標は、統計解析の最も基本となる考え方です。

データ分析を行う際は、まず「平均」と「標準偏差」を確認し、データの特徴を理解することから始めましょう!

✔ あわせて読みたい
分散の加法性とは?平均だけでは見えない「全体のばらつき」の求め方を解説!

標準偏差てどう足し合わせるの?分散の加法性について詳しく解説!

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール