正規分布とは?統計で最も重要な分布をわかりやすく解説【統計基礎】

はじめに

データ分析を行うとき、データがどのような形で分布しているのかを理解することは非常に重要です。
その中でも、統計学で最も重要とされる分布が 正規分布(Normal Distribution) です。

正規分布は、次のような特徴を持つ分布です。
平均を中心に左右対称の形をしている
中央付近にデータが多く、端に行くほど少なくなる
くの自然現象や測定データがこの形に近い分布になる

例えば「身長/体重」「テストの点数」「測定誤差」などのデータは、正規分布に近い形になることが多いと知られています。

統計解析では、この正規分布を前提とした手法が数多く存在します。
そのため、正規分布は 統計の基礎として最も重要な概念の一つです。

この記事では

  • 正規分布とは何か
  • 正規分布の特徴
  • なぜ統計解析で重要なのか

について、基礎からわかりやすく解説します。

正規分布とは

正規分布とは

平均を中心として左右対称の形をした確率分布

のことです。グラフにすると、次のような 釣鐘型(ベル型) の形になります。

このように、

・中央付近にデータが集中
・平均から離れるほどデータが少なくない

という特徴があります。

正規分布では、「平均μ」「標準偏差σ」によって分布の形がひとつに決まります。
よってこの二つの統計量を正しく計算することも重要です。

正規分布の特徴

正規分布にはいくつかの重要な特徴があります。
暗記の必要はありませんが、統計解析につなげるうえで頭の片隅に置いておきたい内容です。
以下にて、それぞれ詳しく説明していきます。

平均を中心に左右対称

正規分布するデータでは、代表値の値が

平均 = 中央値 = 最頻値

になります。

つまり、分布の中心はすべて同じ位置になる特徴を有しています。
(ちなみに、統計検定でよく出題されます)

平均付近にデータが集中する

正規分布では、平均に近い値ほど出現しやすくなります。

一方で、平均から大きく離れた値は出現しにくくなります。

例;成人男性の身長
日本の成人男性の平均身長は171cmです。
そして、人の身長は正規分布することがわかっています。

街中を歩いていると、平均身長付近(167~173cm)の男性は多く目にすると思いますが、
そこから離れてくる高身長(180cm~)の人は目にする割合が減ってくると思います。
中には200㎝を超える人も存在しますが、ほとんど目にしません。

このように、”平均から離れる個体ほど出現率が低くなる”のが正規分布の特徴です。

68-95-99.7ルール

正規分布では、次のような割合でデータが分布します。

範囲含まれるデータ
平均 ± 1σ約68%
平均 ± 2σ約95%
平均 ± 3σ約99.7%

このルールは 正規分布の重要な性質です。
上記の値は暗記する必要はありませんが、およその感触はつかんでおきましょう。
また平均 ± 3σについては管理図における管理限界線によく用いられるため、この範囲に含まれる確率は覚えておいてもよいかもしれません。

正規分布の数式

正規分布は次の数式で表されます。

f(x)=12πσ2exp((xμ)22σ2)f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

一見複雑な式に見えますが、実は2つの変数によってf(x)の値は決まります
それが、以下に記載している「平均μ」と「標準偏差σ」です。

記号意味
μ平均
σ標準偏差

この式から分かるように、正規分布は「平均」と「標準偏差」のたった二つの統計量によって形が決まります。このことは暗記でも全然OKですが、数式まで落とし込んで覚えておいてくとより理解が深まります。

さらに、正規分布は工学や品質管理の分野でも非常に重要です。

製造工程では

・製品の寸法(幅、厚み)
・重量
・強度

などの測定データが得られます。
そして、これらのデータは多くの場合 正規分布に近い形になります。

そのため品質管理では
✅管理図
✅工程能力指数(Cpk)
✅統計的品質管理(SPC)で用いられる各種法

が、正規分布を前提として設計されています。

例えば、工程能力指数では「平均 ± 3σ」の範囲を使って品質を評価します。

この考え方は、先ほど紹介した「99.7%ルール」に基づいています。

✔ あわせて読みたい
Excelで管理図を作る方法|Xbar-R管理図で工程の異常を見抜く手順

Excelで管理図を柵瀬宇する方法について詳しく解説!

✔ あわせて読みたい
Excelで実践Cpk|自工程の安定性は十分か?工程能力の算出方法

品質管理の超基本_工程能力指数Cpkの意味合い、計算方法まで詳しく解説!

正規分布とヒストグラム

データが正規分布に近いかどうかは、ヒストグラムを作ることで確認できます。

ヒストグラムとは、データがどの範囲にどれくらい集まっているかを棒グラフの形で表したものです。

もしヒストグラムが、

・中央付近の棒が高い
・左右に行くほど少しずつ低くなる
・全体として左右対称に近い

という形になっていれば、正規分布に近い可能性があります。

一方で、ヒストグラムが大きく左右どちらかに偏っていたり、一部だけ極端に大きい値や小さい値が含まれていたりする場合は、正規分布とは異なる可能性があります。

例えば、

・右側だけ長く伸びている → 大きい値が出やすい
・左側だけ長く伸びている → 小さい値が出やすい
・山が2つある → 異なる集団が混ざっている可能性がある
・極端に離れた棒がある → 外れ値の可能性がある

といったことが考えられます。

特に製造業では、設備条件の違い、材料ロットの違い、昼勤と夜勤の差などによって、1つの工程の中に複数の集団が混ざることがあります。その場合、ヒストグラムがきれいな山型にならず、2つ山があるような形になることがあります。

ヒストグラムを見ることで、「正規分布に近いかどうか」だけでなく、「工程に何か異常がないか」「複数の条件が混ざっていないか」まで確認できるため、非常に重要です。

上記のような特徴をまったく踏まえず、正規分布を前提としている統計手法(Cpk/管理図/T検定・・・)を用いると、誤った結果を得てしまう可能性があるため注意しましょう。

また、そもそも評価特性によっては正規分布以外の確率分布に従っていることも考えられるので、
技術的な観点からこのことも踏まえて手法を選択できるとよいです。

✔ あわせて読みたい
度数分布表・ヒストグラムとは?作り方と見方をわかりやすく解説

正規分布/外れ値の確認に超重要_度数分布表・ヒストグラムについてわかりやすく解説!

まとめ

この記事では、正規分布について解説しました。
ポイントを整理すると次の通りです。

正規分布は平均を中心とした左右対称の分布
多くの自然現象や測定データがこの分布に近くなる
平均と標準偏差によって分布の形が決まる
統計解析や品質管理で重要な役割を持つ

正規分布は、統計学の中でも最も基本的で重要な概念の一つです。

この分布を理解することで、

仮説検定
工程能力分析
統計解析

など、より高度な統計手法の理解につながります。

現場で統計を使う際は、「どの手法をどの順番で使うか」が最も重要です。

本サイトでは、ExcelやMinitabを使った製造現場向けの統計活用方法を体系的に解説しています。
他の記事にも重要は情報を掲載していますで、是非確認してください。

✔ あわせて読みたい
Excelで実践 T検定|使う局面と具体的な手順

統計解析の中で最も使用される手法のひとつ”t検定”について手順・結果の解釈をわかりやすく解説!

✔ あわせて読みたい
ExcelでF検定を実践|ばらつき(分散)を比較する方法【初心者向け】

バラつきを比較する超基本手法_F検定についてわかりやすく解説!

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール