
はじめに
データ分析では、ほとんどのデータとは大きく離れた値が観測されることがあります。
このようなデータは工程のデータや、ラインの制御値、はたまた実験データでも散見され
これらをまとめて 外れ値(outlier) と呼びます。
例えば次のようなデータを考えます。
10, 11, 12, 9, 10, 11, 50
この場合、50は他の値と大きく離れており、外れ値の可能性があります。
外れ値が存在すると
・平均値が大きく変わる
・分散や標準偏差が大きくなる
・データの分布が歪む
など、統計解析の結果に大きな影響を与えることがあります。
この影響は決して軽微ではなく、検定・推定・回帰分析・信頼性などいずれの解析手法においても避けては議論できない課題となります。
そのため、データ分析では
・外れ値の有無を確認する
・必要に応じて適切に処理する
ことが重要になります。
この記事では
- 外れ値とは何か
- なぜ外れ値が重要なのか外れ値の見つけ方
について、統計の基礎としてわかりやすく解説します。
外れ値とは
外れ値とは
データの中で、他の値から大きく離れている値
のことを指します。
ヒストグラムで表すと、次のようなイメージになります。

多くのデータが一定の範囲に集中しているのに対して、
一部の値だけが大きく離れている場合、それが外れ値です。
外れ値は必ずしも「間違ったデータ」とは限りませんが、統計解析の結果に大きく影響する可能性があります。
そのため、このデータの扱いには注意が必要です。
外れ値の例
外れ値は様々なデータで発生します。以下にいくつかの事例を掲載しています。
年収データ
例えば次のような年収データを考えます。
350万円
380万円
400万円
420万円
5000万円
この場合「5000万円」は他のデータから大きく離れており、外れ値と考えられます。
このようなデータでは統計量を計算した際に”平均”や”分散”などが大きく影響を受けてしまいます。
特に、「平均年収」など統計量そのものを調査対象としてた場合は結論に及ぼす影響は甚大です。
測定データ
工学や品質管理の分野でも外れ値は発生します。
例えば
50.01 mm
50.02 mm
49.98 mm
50.00 mm
52.30 mm
この場合「52.30 mm」は測定ミスや設備トラブルなどの可能性があります。
また、測定データが多くなるほどデータを直接俯瞰して外れ値を見つけることは困難になります。
(100データ、1000データなど)
データ数が多い場合は、グラフ「ヒストグラム」や「箱ひげ図」などを用いて定性的に検出することが有効です(↓にて解説しています)。
外れ値が問題になる理由
外れ値は統計解析に大きな影響を与えることがあります。
特に影響を受けやすい指標は「平均」「分散」「標準偏差」です。
ここでは、外れ値の影響について製造の分野に踏み込んで説明します。
平均
平均は外れ値の影響を受けやすい指標の代表です。
まず、以下に「外れに影響されるとはどういうことか?」について事例で紹介します。
例:以下にデータが5つあります
10, 11, 12, 9, 10
このとき、これらのデータから平均を求めると
10.4
が得られます。5つのデータの代表値として違和感はないと思います。
しかし、ここに6つ目のデータが加わった際に
10, 11, 12, 9, 10, 50
になると、平均の計算結果は
17
となり、大きく変わってしまいます。
この結果、製造現場では
・(本来は狙い値通りなのに) 寸法平均が高いと判断され、低くなるように改善を加えてしまう
・T検定などで効果検証した際に、本来は存在しない有意差が検出されてしまう
といった誤った判断につながります
分散・標準偏差
分散や標準偏差は、値の差を2乗して計算するため、外れ値の影響を特に強く受けます。
そのため、外れ値が存在すると
・データのばらつき
・分布の形状
が大きく変化します。
このとき、バラツキ(分散/標準偏差)の計算において、外れ値は必ず大きくなる方に寄与する点に注意が必要です。
特に工学・品質管理の分野では「分散・標準偏差は小さくしたい」という前提があるため、外れ値があることでバラつきが過大に評価されてしまうのは何としても避けたいです。

※画像はイメージです、実際にここまでσが過大評価されることは少ないです
基本統計量_平均・分散・標準偏差の意味合いとExcelを用いた計算方法について解説!
外れ値の見つけ方
外れ値を見つける方法はいくつかあります。
ここでは、難しい検定手法ではなく、グラフ作成や基本的な手法で見つけるやり方を紹介します。
(統計手法を用いたやり方についても別記事で解説します)
①ヒストグラム
ヒストグラムとは、データがどの範囲にどれくらい集まっているかを棒グラフの形で表したものです。
単純な棒グラフと違い、ヒストグラムでは「何個あるか」だけでなく、「データがどのように分布しているか」を確認できます。
例えば、製品寸法のデータをヒストグラムにすると、
・どの値の周辺にデータが集中しているか
・ばらつきが大きいか小さいか
・左右対称に分布しているか
・一部だけ極端に大きい値や小さい値があるか
といったことが分かります。
データが中央付近にまとまっていれば、安定した分布だと考えられます。
一方で、分布が横に広がっている場合は、ばらつきが大きいことを意味します。
また、右側だけ長く伸びている場合は「大きい値が出やすい」、左側だけ長く伸びている場合は「小さい値が出やすい」など、分布の偏りも確認できます。
さらに、多くのデータが集中している部分から大きく離れた値があれば、外れ値の可能性があります。

ヒストグラムは、「分布の中心」「分布の広がり」「分布の偏り」「外れ値の有無」をひと目で把握できるため、統計では非常によく使われるグラフです。
ヒストグラムの概要、作成方法および結果の解釈については以下の記事で詳しく解説しています。
気になった方は是非読んでみてください↓
QC七つ道具_ヒストグラム+度数分布表についてわかりやすく解説!
②箱ひげ図
箱ひげ図(Boxplot)は外れ値を確認する代表的な方法です。
箱ひげ図では、最小値、第1四分位数、中央値、第3四分位数、最大値の5つの値を使ってデータの広がりを表します。
中央にある箱の部分は、第1四分位数から第3四分位数までの範囲を示しています。つまり、データの中央50%がどこに集まっているかを見ることができます。
箱の中に引かれている線は中央値です。この線が箱の真ん中に近ければ、データは比較的左右対称に分布しています。逆に、線が上側または下側に寄っている場合は、データが片側に偏っていることがあります。
箱から上下に伸びている線が「ひげ」です。ひげは、最小値や最大値までの範囲を表しています。
箱ひげ図を見ると、
・箱が大きいほど、データのばらつきが大きい
・箱が小さいほど、データがまとまっている
・中央値の位置が偏っていると、データの分布に偏りがある
・ひげが長いと、外れた値が含まれている可能性がある
といったことが分かります。
例えば、A工場とB工場の寸法データを箱ひげ図で比較すると、どちらの工場の方がばらつきが小さいか、中央値が高いか、外れ値があるかなどを視覚的に確認できます。

また、次項で詳しく説明しますが箱ひげ図は「Q1 − 1.5 × IQR」「Q3 + 1.5 × IQR」といった数理的な根拠に基づいて外れ値の有無を判断できることも強みです。

補足:Q1・Q3・IQRとは
ここで登場する Q1・Q3・IQR は、データの分布を四つに分けたときの位置を示す指標です。
| 記号 | 意味 |
|---|---|
| Q1 | 第1四分位数(データの下位25%の位置) |
| Q3 | 第3四分位数(データの上位25%の位置) |
| IQR | 四分位範囲(Q3 − Q1) |
四分位範囲(IQR)は、データの中央50%の広がりを表します。
図で表すと次のようになります。
最小値 ── Q1 ── 中央値 ── Q3 ── 最大値
|----- IQR -----|
箱ひげ図では、この Q1〜Q3の範囲(IQR) が箱として表示されます。
外れ値の判定基準
箱ひげ図では、次の範囲を超えたデータを 外れ値 として扱うことが一般的です。
Q1 − 1.5 × IQR
Q3 + 1.5 × IQR
つまり
・Q1 − 1.5×IQR より小さい値
・Q3 + 1.5×IQR より大きい値
は、他のデータから大きく離れている可能性があるため外れ値として表示されます。
工学・品質管理で”外れ値”が重要な理由
工学や品質管理の分野では、外れ値は特に重要です。
実際の製造現場では、きれいなデータばかりが並ぶことはほとんどありません。
普段は安定している工程でも、ときどき極端に大きい値や小さい値が混ざることがあります。
例えば、
・設備の調整不良
・測定器のズレ
・材料ロットの違い
・作業者による条件差
・加工機の摩耗
・突発的な温度変化
などによって、通常とは異なるデータが発生することがあります。
現場では、こうした外れ値はむしろ非常によく発生します。
例えば、普段は100±2mm程度で安定している寸法データの中に、突然110mmの製品が1つだけ出てきたとします。この1点だけを見ると、「たまたまだろう」と思って廃棄し、本質を見落としてしまいがちです。
しかし実際には、
・刃具が欠けていた
・設備の原点がズレていた
・材料の固定が甘かった
・測定器が故障していた
といった異常のサインであることも少なくありません。
そのため、外れ値は単なる「変なデータ」ではなく、「工程で何か異常が起きている可能性を教えてくれる重要なサイン」と考える必要があります。
特に品質管理では、不良品が出た後に原因を調べるよりも、「外れ値が出た時点で異常に気づく」ことが非常に重要です。ヒストグラムや箱ひげ図で外れ値を確認することは、品質トラブルの早期発見にもつながります。
品質管理の分野では、特に
✅管理図
✅工程能力分析
などを用いて、外れ値や異常値を早期に検出します。
そして外れ値が単なる測定ミス・転記ミスなどではなく、系統的な理由があった場合は即時対策を打ちことでその後の製品に対する影響を最小化することができます。
Excelで管理図を柵瀬宇する方法について詳しく解説!
品質管理の超基本_工程能力指数Cpkの意味合い、計算方法まで詳しく解説!
まとめ
この記事では、外れ値について解説しました。
ポイントを整理すると次の通りです。
- 外れ値とは他のデータから大きく離れた値
- 外れ値は平均や標準偏差に大きく影響する
- ヒストグラムや箱ひげ図で確認できる
- 品質管理では工程異常の兆候となることがある
データ分析では、まず「データの分布」や「外れ値の有無」を確認することが重要です。
外れ値の存在を理解することで、より正確な統計解析を行うことができます。
本サイトでは、ExcelやMinitabを使った
製造現場向けの統計活用方法を体系的に解説しています。
今後、実務者向け統計解析セミナーも開催予定ですので、興味のある方はぜひ他の記事もご覧ください
詳しくはお問い合わせフォームよりご連絡ください