統計解析で用いる確率分布一覧|代表的な分布と特徴をわかりやすく解説【統計基礎】

① はじめに

統計解析では、データの特徴を表現するために様々な 確率分布(Probability Distribution) が用いられます。確率分布とはデータがどのような確率で値をとるかを数学的に表したものです

例えば、

測定データ → 正規分布
製品寿命 → ワイブル分布
不良数 → ポアソン分布
成功回数 → 二項分布

など、データの性質によって適した分布が異なります。

統計解析では、この分布を理解することで

データの特徴を把握する
将来の値を予測する
品質や信頼性を評価する

ことが可能になります。

この記事では、統計解析でよく用いられる代表的な確率分布について、その特徴や数式、主な用途を一覧形式で解説します。
(統計手法によって計算に用いられる分布が異なるので、本記事は保存をお勧めします。)

② 統計解析で用いる主な確率分布

統計解析でよく使われる分布には次のようなものがあります。
以下に頻出の確率分布の一覧を掲載します。

分布主な用途
正規分布測定データ
指数分布待ち時間
ワイブル分布製品寿命
最大極値分布最大値
最小極値分布最小値
二項分布成功回数
ポアソン分布発生回数
t分布平均の検定
カイ二乗分布分散の検定
F分布分散比較
対数正規分布寿命・粒径

これらの分布は、データの種類や分析目的に応じて使い分けられます。
次項より、それぞれの分布の特徴・対象となる状況について紹介します。

③ 正規分布(Normal Distribution)

正規分布は、統計学で最も基本となる確率分布です。

平均を中心として左右対称の「釣鐘型(ベル型)」になるのが特徴で、多くの自然現象や測定データは、この正規分布に近い形になります。

例えば、

・身長
・体重
・テストの点数
・製品寸法
・測定誤差
・機械加工後の寸法ばらつき

などは、正規分布に近くなることが多い代表例です。

正規分布では、平均値の近くにデータが多く集まり、平均から離れるほどデータは少なくなります。

例えば、平均100mmの製品寸法を測定した場合、多くの製品は100mm付近に集まりますが、95mmや105mmのような極端な値は少なくなります。このような「中央に集まり、両端ほど少なくなる」という特徴が、正規分布の最も重要なポイントです。

また、正規分布では、平均と標準偏差を使うことで、データがどの範囲にどれくらい含まれるかを予測できます。以下がよく教材に乗っている「正規分布のある範囲にデータが収まる確率」です↓

・平均±1σの範囲には約68%
・平均±2σの範囲には約95%
・平均±3σの範囲には約99.7%

この性質は、品質管理や工程能力の評価で非常によく使われます。

例えば、製品寸法が「平均100mm、標準偏差2mm」の正規分布に従う場合、平均±3σを計算すると多くの製品は96〜104mmの範囲に入ると考えることができます。そのため、規格値を決めるときや、不良率を推定するときにも正規分布は重要になります。

また、正規分布の確率密度関数は、次の式で表されます。

確率密度関数

f(x)=12πσ2exp((xμ)22σ2)f(x)=\frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

記号意味
μ平均
σ標準偏差

平均が変わると分布の中心位置が変わり、標準偏差が大きくなると分布は横に広がります。
逆に、標準偏差が小さいと、データは平均付近に集中します。

統計解析の多くの手法は、正規分布を前提として作られています。

例えば、

・t検定
・分散分析
・回帰分析
・工程能力指数
・管理図

などは、正規分布を前提としていることが多いです。

そのため、統計を学ぶ上では、「正規分布とはどのような形か」「平均と標準偏差でどのように分布が変わるか」は必ず押さえておきたいポイントです。

統計解析の多くの手法は、正規分布を前提として構築されています。
出てくる場面が非常に多い分布なので、上記の情報は押さえておくようにしましょう。

✔ あわせて読みたい
正規分布とは?統計で最も重要な分布をわかりやすく解説【統計基礎】

統計で最も重要な分布_正規分布についてわかりやすく解説!

④ 指数分布(Exponential Distribution)

指数分布は、「ある事象が発生するまでの時間」を表す分布です。

よく用いられるのは以下のケースです

・機械が故障するまでの時間
・次の顧客が来店するまでの時間
・電話がかかってくるまでの時間
・設備アラームが発生するまでの時間
・製品に不具合が発生するまでの時間

これらは、指数分布で表されることがあります。指数分布では、「時間が短いほど発生しやすく、長い時間が経つほど発生しにくい」という特徴があります。

例えば、ある設備が故障するまでの時間を考えると、「すぐ故障するケース」は比較的多く、「非常に長い時間故障しないケース」は少なくなります。

そのため、指数分布のグラフは、左側が高く、右に行くほどなだらかに下がっていく形になります。
正規分布のような左右対称の形ではなく、右側に長く伸びる形になるのが特徴です。

また、指数分布の確率密度関数は、次の式で表されます。

確率密度関数

f(x)=λeλxf(x)=\lambda e^{-\lambda x}

記号意味
λ発生率

λ が大きいほど、事象は短時間で発生しやすくなります。
逆に、λ が小さいほど、事象はなかなか発生しません。

例えば、機械の故障率が高い場合は λ が大きくなり、故障までの時間は短くなります。
一方で、信頼性の高い設備では λ が小さくなり、故障までの時間は長くなります。
指数分布には、「記憶性がない(memoryless)」という重要な特徴があります。

これは、「今までどれだけ時間が経過したかに関係なく、今後故障する確率は変わらない」という意味です。

例えば、ある機械が100時間故障せずに動いていたとしても、「次の1時間で故障する確率」は、新品の機械と同じです。つまり、「今まで壊れなかったから、これからも壊れにくい」という考え方にはならないのが、指数分布の特徴です。

この性質は、設備保全や信頼性工学の分野で非常によく使われます。

⑤ ワイブル分布(Weibull Distribution)

ワイブル分布は 信頼性工学で非常に重要な分布です。

主に以下の用途で用いられます
製品寿命
機械部品の故障
材料強度

確率密度関数

f(x)=kλ(xλ)k1exp[(xλ)k]f(x)=\frac{k}{\lambda} \left(\frac{x}{\lambda}\right)^{k-1} \exp\left[-\left(\frac{x}{\lambda}\right)^k\right]

記号意味
k (mで表現されることも)形状パラメータ
λ尺度パラメータ

ワイブル分布は正規分布同様に複雑な計算式に見られますが、実は形状パラメータmと尺度パラメータηの二つが決まれば分布の形状はただ一つに決まります
分布の形状が決まれば、例えば「ある時点での累積故障率」などの予測にも活用できる便利な分布です。

また、ワイブル分布最大の特徴として、「形状パラメータによって故障モードが変化する」点が挙げられます。

以下に「形状パラメータ」と「故障モード」の関係について掲載します。

k故障モード
k < 1初期故障
k = 1ランダム故障
k > 1摩耗故障

形状パラメータkの値によって、分布の形状が大きく異なることが見て取れます。
これらは通称「バスタブ曲線」と呼ばれており、この違いが”故障モード”の違いを表現しているわけです。

応用技術として、取得した故障データから形状パラメータkを推定することで、
担当製品の故障モードが初期故障なのか?摩耗故障なのか?を突き止めることもできます

応用例が非常に多い分布なので、別記事にて詳しく使いどころを解説したいと思います。

⑥ 最大極値分布(Gumbel Distribution)

最大極値分布は、「最大値の分布」を扱う確率分布です。

通常の分布は、個々のデータがどのようにばらつくかを考えますが、最大極値分布では、「一定期間の中で最も大きかった値」に注目します。

例えば、以下の現象の分析にて最大極値分布を当てはめることが多いです。

・1年間で最も多かった降水量
・1年間で最も強かった風速
・ある期間で最も大きかった荷重
・材料試験で最も大きかった破断荷重
・設備にかかった最大応力

などは、最大極値分布で扱われる代表例です。

例えば、毎日の降水量データをそのまま分析するのではなく、「各年で最も大きかった降水量だけ」を取り出して分布を見るのが、最大極値分布の考え方です。

このように、「普通の値」ではなく、「極端に大きい値」に注目するのが特徴です。

最大極値分布の計算式は非常に複雑で、実務でも式を暗記して使うことはほとんどありません。
実際には、Excelや統計ソフトを使って解析することが多いため、「どのような場面で使う分布か」を理解しておく方が重要です。

また実務視点では、最大極値分布は、特に「最悪条件を想定する必要がある分野」でよく使われます。
例えば、構造物を設計するときは、「通常の荷重」ではなく、「最も大きな荷重がかかったときでも壊れないか」を考える必要があります。また、河川やダムの設計では、「普段の雨量」ではなく、「数十年に一度の大雨」を基準に設計することがあります。

そのため、

・気象解析
・構造設計
・防災設計
・信頼性評価
・材料強度評価

などで頻出の分布となっています。

工学の分野では、引張試験の破断荷重や、疲労試験での最大応力、設備にかかるピーク荷重などで使われることがあります。特に製造業では、「平均的には問題ないが、最大値が規格を超えると危険」というケースが多くあります。

例えば、普段は問題ない応力でも、一瞬だけ非常に大きな荷重がかかると破損につながることがあります。そのため、平均値だけでなく、「最大でどれくらいになるか」を考える際に、最大極値分布は重要になります。

⑦ 最小極値分布

最小極値分布は、「最小値の分布」を表す確率分布です。最大極値分布が「最も大きい値」に注目するのに対し、最小極値分布では「最も小さい値」に注目します。

以下の現象の分析にて最小極値分布を当てはめることが多いです。

・材料の破壊強度の最小値
・部品寿命の最短時間
・最も低かった気温
・最も小さかった寸法
・最も弱かった接合強度

例えば、100個の製品を作ったときに、平均的な強度ではなく、「最も弱かった製品がどれくらいの強度だったか」を知りたい場合があります。実際の現場では、「平均的には問題ない」よりも、「最も弱い個体でも安全か」の方が重要になることが少なくありません。
特に材料や部品の設計では、一番弱い部分が破壊の起点になることが多いため、最小値の評価が重要になります。

例えば、ボルトの強度試験で、ほとんどのサンプルは問題なくても、1本だけ極端に弱いものがあれば、その1本が原因で破損につながる可能性があります。そのため、材料強度や耐久性の評価では、「最も弱い個体がどれくらいか」を考えるために、最小極値分布が使われます

そのため、

・材料強度評価
・耐久試験
・寿命試験
・品質保証
・信頼性工学

などの分野で利用されます。

最小極値分布の計算式は非常に複雑で、実務では統計ソフトやExcelを使って求めることが一般的です。そのため、まずは「最も小さい値の分布を扱う」「一番弱い個体や最短寿命を評価するために使う」というイメージを持っておくと分かりやすいです。

⑧ 二項分布(Binomial Distribution)

二項分布は、「成功 / 失敗」の2値データを扱う確率分布です。

例えば、

・不良品か良品か
・合格か不合格か
・購入するかしないか
・表が出るか裏が出るか

のように、結果が2つに分かれるデータで使われます。
二項分布では、「何回試行したときに、成功が何回起こるか」を考えます。

例えば、100個の製品を検査したときに、不良品が何個出るかを考える場合は、二項分布で表すことができます。

品質管理では、

・不良品数
・合格数
・検査通過数
・クレーム件数
・設備停止回数

などの分析で使われることがあります。

特に製造業では、「不良率が何%か」「100個中何個不良が出そうか」「抜き取り検査で不良が見つかる確率はどのくらいか」といった場面が非常に多くあります

そのため、二項分布は品質管理や統計解析で頻出の分布です。

また、二項分布は「各試行が独立していること」が前提になります。例えば、ある製品が不良だったからといって、次の製品が不良になる確率が変わらない場合は、二項分布として扱うことができます。
一方で、設備異常などによって不良が連続して発生する場合は、単純な二項分布では表せないことがあります。

また、数式に着目すると以下の式になります。

確率質量関数

P(X=k)=(nk)pk(1p)nkP(X=k)=\binom{n}{k}p^k(1-p)^{n-k}

計算式に出てくる変数としては3つあり、それぞれの意味合いは以下に掲載しています。

記号意味
n試行回数
k成功回数 (不良個数も可)
p成功確率 (不良率も可)

つまり、試行回数=抜き取り数のうち、不良が出た個数の情報をもとに、母比率(不良が起こる確率)を推定することができます。
また、信頼区間など幅を持たせた推定も可能です。品質管理では 不良率の解析などに用いられます。

例;
・不良率5%の工程で、1000個の製品を検査した際に「不良がx個見つかる確率」を算出する
・感染確率0.01%の疾病について、1000回施術した際に「罹患者がx人」になる確率を保守的に見積もる


また、試行回数nが大きく成功確率pが小さい場合には、次項で紹介するポアソン分布に近似されます。

⑨ ポアソン分布(Poisson Distribution)

ポアソン分布は、「一定時間・一定面積・一定区間に発生する事象の回数」を表す確率分布です。

例えば、

・1日あたりの設備故障回数
・1か月あたりのクレーム件数
・基板の単位面積あたりの欠陥数
・ウエハ上の異物数
・1時間あたりの電話件数

などの「発生回数データ」を扱うときに使われます。

二項分布と少し似ていますが、ポアソン分布は

・事象の発生確率が非常に小さい
・試行回数が非常に多い

という条件で使われます。

例えば、「100万個に1個だけ不良が出る」のような、非常にまれな不良を考える場合は、二項分布よりもポアソン分布の方が扱いやすくなります。
また、二項分布は「何回中何回成功したか」を考えるのに対し、ポアソン分布は「一定範囲の中で何回発生したか」を考える分布です。そのため、「1時間で何回故障したか」「1枚の基板に何個欠陥があったか」のようなデータと相性が良いです。

ポアソン分布の確率質量関数は、次の式で表されます。

確率質量関数P(X=k)=λkeλk!P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}

記号意味
λ平均発生回数
発生回数

ポアソン分布の大きな特徴として、

平均 = 分散 = λ

になるという性質があります(これも、統計検定で頻出です)。

例えば、1日あたり平均4回故障する設備がある場合、平均故障回数も4、分散も4になります。
この特徴は、データが本当にポアソン分布に従っているかを確認するときにもよく使われます。

製造業では、ポアソン分布は非常によく使われます。
例えば、

・基板単位面積あたりの欠陥数
・ウエハの欠陥カウント
・月ごとの特定不良の発生件数
・設備の故障回数
・工程内でのキズ数

などは、典型的なポアソン分布の対象です。

品質管理では、ポアソン分布は次の管理図とも深く関係しています。

・c管理図(欠点数管理図)
・u管理図(単位あたり欠点数管理図)

これらは、ポアソン分布を前提として作られている管理図です。

筆者の経験では、半導体メーカーに所属していた際に、

・基板単位面積あたりの配線不良数
・月ごとの特定不良の発生件数

の分析で、ポアソン分布を仮定したポアソン検定を実施したことがあります。

品質管理の現場では非常に登場頻度の高い分布なので、「まれに発生する事象の回数を扱う分布」として覚えておきたいです。

⑩ t分布(Student’s t Distribution)

t分布は、「標本数が少ない場合の平均値のばらつき」を扱う確率分布です。

正規分布と非常によく似た形をしていますが、t分布の方が両端の裾が厚いという特徴があります。これは、標本数が少ないと平均値の不確実性が大きくなることを反映しています。

例えば、10個しかデータがない場合と、1000個データがある場合では、平均値の信頼性は大きく異なります。10個しかデータがない場合は、たまたま偏ったデータが入る可能性が高く、平均との差も大きくなりやすいため、分布の裾が厚くなります。

一方で、標本数が増えると平均値は安定し、t分布は正規分布に近づいていきます。
t分布は、主に

・母分散が分からない
・標本数が少ない

という条件で使われます。
実際の現場では、母集団全体の分散が分かっていることはほとんどありません。

また、試作段階や実験段階では、データ数が少ないことも多いため、t分布を使う場面は非常に多いです。t分布では、「自由度」という値が重要になります。自由度が小さいほど裾は厚くなり、自由度が大きくなるほど正規分布に近づきます。

一般的には、サンプル数が30以上あると、t分布と正規分布の違いはかなり小さくなります

t分布は、次のような統計手法で使われます。

・t検定(平均値の差の検定) ←特に重要!
・平均値の信頼区間
・回帰分析の係数検定
・少数サンプルの平均比較

製造業では、品質改善や条件変更の効果確認で使用される統計手法「t検定」にて扱うことがほとんどです。解析はExcelなどの統計ソフトが行ってくれるため、意識することはあまりないですが「t検定では検定統計量の値とt分布に当てはめている」程度の知識は持っておくとよいと思います。

✔ あわせて読みたい
Excelで実践 T検定|使う局面と具体的な手順

統計解析の中で最も使用される手法のひとつ”t検定”について手順・結果の解釈をわかりやすく解説!

⑪ カイ二乗分布(Chi-Square Distribution)

カイ二乗分布は、分散やデータのばらつきを扱う確率分布です。
特に、カテゴリーデータの分析や、観測された結果と期待される結果に差があるかを確認するときによく使われます。

例えば、

・設備Aと設備Bで不良率に差があるか
・不良原因の内訳に偏りがあるか
・昼勤と夜勤で不良発生傾向が違うか
・検査結果の分布が想定通りか

といった場面で利用されます。

カイ二乗分布は、主に次のような統計手法で使われます。

・カイ二乗検定
・適合度検定
・独立性検定
・分散の推定
・母分散の信頼区間

カイ二乗検定では、「実際に観測された件数」と「理論上期待される件数」に差があるかを確認します。例えば、不良原因が「キズ」「寸法不良」「異物」の3種類あったとして、本来は均等に発生するはずなのに、実際にはキズだけ極端に多い場合は、「何か原因があるのではないか」と考えます。

また、設備ごとに不良件数を比較して、「設備Aだけ特定の不良が多い」といった偏りがあるかも確認できます。

このように、「偏りが偶然なのか、それとも意味のある差なのか」を判断するために使われるのがカイ二乗検定です。χ二乗分布についても、χ二乗検定にて用いられる分布である程度の知識は押さえておきたいです。

⑫ F分布(F Distribution)

F分布は、2つの分散の比を扱う確率分布です。

例えば、「設備Aと設備Bでばらつきに差があるか」「条件変更によってばらつきが変化したか」といった、分散の比較を行うときに使われます。

F分布は、主に次のような統計手法で使われます。

・F検定(2群の分散比較)←特に重要!
・分散分析(ANOVA) ←特に重要!
・回帰分析の有意性検定
・実験計画法(DOE)

F分布の大きな特徴は、「分散の比」を扱うことです。例えば、設備Aの分散が4、設備Bの分散が2であれば、F値は

F = 4 / 2 = 2

となります。

このF値が十分に大きければ、「2つのばらつきには有意な差がある」と判断します。
F分布は、0以上の値しか取らず、右側に長く伸びる形をしています。
正規分布のように左右対称ではなく、0付近に山があり、大きな値になるほど頻度が低くなります。

また、F分布は2つの自由度によって形が変わります。自由度が小さいと右に大きく伸びた形になりますが、自由度が大きくなると分布はなだらかになります。

製造業では、F分布は非常によく使われます。

例えば、

・複数条件での工程能力比較
・設備差によるばらつき評価
・温度条件ごとの品質比較
・材料条件ごとの強度比較
・実験計画法(DOE)の解析

などで利用されます。品質管理では、「平均値に差があるか」だけでなく、「ばらつきに差があるか」を確認することも非常に重要です。

そのため、F分布は、分散比較や分散分析で必ず登場する重要な分布です。

✔ あわせて読みたい
ExcelでF検定を実践|ばらつき(分散)を比較する方法【初心者向け】

バラつきを比較する統計的仮設検定_F検定についてわかりやすく解説!

⑬ 分布の比較

代表的な分布の特徴をまとめると次の通りです。

分布主な用途
正規分布測定データ
指数分布待ち時間
ワイブル分布寿命解析
極値分布最大・最小
二項分布成功回数
ポアソン分布発生回数
t分布平均検定
カイ二乗分布分散検定
F分布分散比較

⑭ まとめ

この記事では、統計解析で用いられる代表的な確率分布を紹介しました。

ポイントを整理すると

  • データの種類によって適した分布が異なる
  • 工学や品質管理では様々な分布が使われる
  • 分布を理解することが統計解析の基礎になる

確率分布の理解は、統計解析を行う上で非常に重要です。

まずは代表的な分布の特徴を理解し、データに適した分布を選択することが重要になります。

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール