外れ値とは?データ分析で注意すべき理由と見つけ方を解説【統計基礎】

はじめに

データ分析では、ほとんどのデータとは大きく離れた値が観測されることがあります。
このようなデータは工程のデータや、ラインの制御値、はたまた実験データでも散見され
これらをまとめて 外れ値(outlier) と呼びます。

例えば次のようなデータを考えます。

10 11 12 9 10 11 50

この場合、50は他の値と大きく離れており、外れ値の可能性があります。
外れ値が存在すると

平均値が大きく変わる
分散や標準偏差が大きくなる
データの分布が歪む

など、統計解析の結果に大きな影響を与えることがあります。
この影響は決して軽微ではなく、検定・推定・回帰分析・信頼性などいずれの解析手法においても避けては議論できない課題となります。

そのため、データ分析では

外れ値の有無を確認する
必要に応じて適切に処理する

ことが重要になります。

この記事では「外れ値とは何か?」「なぜ外れ値が重要なのか」「外れ値の見つけ方
について、統計の基礎としてわかりやすく解説します。

外れ値とは

外れ値とは

データの中で、他の値から大きく離れている値

のことを指します。

ヒストグラムで表すと、次のようなイメージになります。

多くのデータが一定の範囲に集中しているのに対して、
一部の値だけが大きく離れている場合、それが外れ値です。

外れ値は必ずしも「間違ったデータ」とは限りませんが、統計解析の結果に大きく影響する可能があります。
そのため、このデータの扱いには注意が必要です。

外れ値の例

外れ値は様々なデータで発生します。以下にいくつかの事例を掲載しています。

①年収データ

例えば次のような年収データを考えます。

350万円 380万円 400万円 420万円 5000万円

この場合「5000万円」は他のデータから大きく離れており、外れ値と考えられます。

このようなデータでは統計量を計算した際に”平均”や”分散”などが大きく影響を受けてしまいます。
特に、「平均年収」など統計量そのものを調査対象としてた場合は結論に及ぼす影響は甚大です。

②測定データ

工学や品質管理の分野でも外れ値は発生します。

例えば、

50.01 mm 50.02 mm 49.98 mm 50.00 mm 52.30 mm

この場合「52.30 mm」は測定ミスや設備トラブルなどの可能性があります。
また、測定データが多くなるほどデータを直接俯瞰して外れ値を見つけることは困難になります。
(100データ、1000データなど)

データ数が多い場合は、グラフ「ヒストグラム」や「箱ひげ図」などを用いて定性的に検出することが有効です(↓にて解説しています)。

外れ値が問題になる理由

外れ値は統計解析に大きな影響を与えることがあります。
特に影響を受けやすい指標は「平均」「分散」「標準偏差」です。

ここでは、外れ値の影響について製造の分野に踏み込んで説明します。

①平均の計算

平均は外れ値の影響を受けやすい指標の代表です。
「外れ値に影響される」とはどういうことか、具体例で見てみましょう。

▼ ケース①(外れ値なし)
データ
10 11 12 9 10
平均 = 10.4
▼ ケース②(外れ値あり)
データ
10 11 12 9 10 50
平均 = 17
このように、たった1つの外れ値によって平均値が大きく変化してしまいます。

製造現場では以下のような誤った判断につながる可能性があります。
  • 本来は正常なのに「平均が高い」と判断して不要な調整を行ってしまう
  • T検定などで、本来存在しない有意差が検出されてしまう

②分散・標準偏差の計算

分散や標準偏差は、値の差を2乗して計算するため、外れ値の影響を特に強く受けます。
その結果、データのばらつきや分布の形状が大きく変化してしまいます。

▼ ケース①(外れ値なし)
データ
10 11 12 9 10
標準偏差 ≈ 約1
▼ ケース②(外れ値あり)
データ
10 11 12 9 10 50
標準偏差 ≈ 約15
外れ値は平均との差が大きいため、2乗計算によって影響が極端に増幅されます。

その結果、現場での分析において以下の様な不都合が生じやすくなります。
  • データのばらつきが実態以上に大きく見える
  • 分布の形状が歪んで見える

※重要ポイント
外れ値は必ず「ばらつきを大きくする方向」に寄与します。

工学・品質管理の分野では「ばらつきは小さくする」ことが前提のため、
外れ値によってばらつきが過大評価されることは避ける必要があります。

※画像はイメージです、実際にここまでσが過大評価されることは少ないです

✔ あわせて読みたい
平均・分散・標準偏差とは?統計の基本指標をわかりやすく解説【統計基礎】

基本統計量_平均・分散・標準偏差の意味合いとExcelを用いた計算方法について解説!

外れ値の見つけ方

外れ値を見つける方法はいくつかあります。
ここでは、難しい検定手法ではなく、グラフ作成や基本的な手法で見つけるやり方を紹介します。
(統計手法を用いたやり方についても別記事で解説します)

①ヒストグラム

ヒストグラムとは、データがどの範囲にどれくらい集まっているかを棒グラフの形で表したものです。

単純な棒グラフと違い、ヒストグラムでは「何個あるか」だけでなく、「データがどのように分布しているか」を確認できます。

例えば、製品寸法のデータをヒストグラムにすると、

・どの値の周辺にデータが集中しているか
・ばらつきが大きいか小さいか
・左右対称に分布しているか
・一部だけ極端に大きい値や小さい値があるか

といったことが分かります。

データが中央付近にまとまっていれば、安定した分布だと考えられます。
一方で、分布が横に広がっている場合は、ばらつきが大きいことを意味します。

また、右側だけ長く伸びている場合は「大きい値が出やすい」、左側だけ長く伸びている場合は「小さい値が出やすい」など、分布の偏りも確認できます。
さらに、多くのデータが集中している部分から大きく離れた値があれば、外れ値の可能性があります。
ヒストグラムは、「分布の中心」「分布の広がり」「分布の偏り」「外れ値の有無」をひと目で把握できるため、統計では非常によく使われるグラフです。

ヒストグラムの概要、作成方法および結果の解釈については以下の記事で詳しく解説しています。
気になった方は是非読んでみてください↓

✔ あわせて読みたい
度数分布表・ヒストグラムとは?作り方と見方をわかりやすく解説

QC七つ道具_ヒストグラム+度数分布表についてわかりやすく解説!

②箱ひげ図

箱ひげ図(Boxplot)は外れ値を確認する代表的な方法です。

箱ひげ図では、最小値、第1四分位数、中央値、第3四分位数、最大値の5つの値を使ってデータの広がりを表します。
中央にある箱の部分は、第1四分位数から第3四分位数までの範囲を示しています。つまり、データの中央50%がどこに集まっているかを見ることができます。

箱の中に引かれている線は中央値です。この線が箱の真ん中に近ければ、データは比較的左右対称に分布しています。逆に、線が上側または下側に寄っている場合は、データが片側に偏っていることがあります。

箱から上下に伸びている線が「ひげ」です。ひげは、最小値や最大値までの範囲を表しています。

箱ひげ図を見ると、

・箱が大きいほど、データのばらつきが大きい
・箱が小さいほど、データがまとまっている
・中央値の位置が偏っていると、データの分布に偏りがある
・ひげが長いと、外れた値が含まれている可能性がある

といったことが分かります。

例えば、A工場とB工場の寸法データを箱ひげ図で比較すると、どちらの工場の方がばらつきが小さいか、
中央値が高いか、外れ値があるかなどを視覚的に確認できます。

また、次項で詳しく説明しますが箱ひげ図は「Q1 − 1.5 × IQR」「Q3 + 1.5 × IQR」といった数理的な根拠に基づいて外れ値の有無を判断できることも強みです。

補足:Q1・Q3・IQRとは

ここで登場する Q1・Q3・IQR は、データの分布を四つに分けたときの位置を示す指標です。

記号意味
Q1第1四分位数(データの下位25%の位置)
Q3第3四分位数(データの上位25%の位置)
IQR四分位範囲(Q3 − Q1)

四分位範囲(IQR)は、データの中央50%の広がりを表します。

図で表すと次のようになります。

最小値 ── Q1 ── 中央値 ── Q3 ── 最大値
|----- IQR -----|

箱ひげ図では、この Q1〜Q3の範囲(IQR) が箱として表示されます。

外れ値の判定基準

外れ値の判定基準(箱ひげ図)

箱ひげ図では、次の範囲を超えたデータを 外れ値 として扱うことが一般的です。

下限:Q1 − 1.5 × IQR
上限:Q3 + 1.5 × IQR
外れ値と判定される条件
  • Q1 − 1.5 × IQR より小さい値
  • Q3 + 1.5 × IQR より大きい値

これらの範囲を超えるデータは、他のデータから大きく離れている可能性があるため、外れ値として表示されます。

工学・品質管理で”外れ値”が重要な理由

工学や品質管理の分野では、外れ値は特に重要です。
実際の製造現場では、きれいなデータばかりが並ぶことはほとんどありません。
普段は安定している工程でも、ときどき極端に大きい値や小さい値が混ざることがあります。

例えば、以下の様は事例が挙げられます。

No. 主な要因
設備の調整不良
測定器のズレ
材料ロットの違い
作業者による条件差
加工機の摩耗
突発的な温度変化

上記の要因により、通常とは異なるデータが発生することがあります。
現場では、こうした外れ値はむしろ非常によく発生します。

例えば、普段は100±2mm程度で安定している寸法データの中に、突然110mmの製品が1つだけ出てきたとします。この1点だけを見ると、「たまたまだろう」と思って廃棄し、本質を見落としてしまいがちです。

しかし実際には、

・刃具が欠けていた
・設備の原点がズレていた
・材料の固定が甘かった
・測定器が故障していた

といった異常のサインであることも少なくありません。
そのため、外れ値は単なる「変なデータ」ではなく、「工程で何か異常が起きている可能性を教えてくれる重要なサイン」と考える必要があります。

特に品質管理では、不良品が出た後に原因を調べるよりも、「外れ値が出た時点で異常に気づく」ことが非常に重要です。ヒストグラムや箱ひげ図で外れ値を確認することは、品質トラブルの早期発見にもつながります。

品質管理の分野では、特に

管理図
工程能力分析

などを用いて、外れ値や異常値を早期に検出します。
そして外れ値が単なる測定ミス・転記ミスなどではなく、系統的な理由があった場合は即時対策を打ちことでその後の製品に対する影響を最小化することができます。

✔ あわせて読みたい
Excelで管理図を作る方法|Xbar-R管理図で工程の異常を見抜く手順

Excelで管理図を柵瀬宇する方法について詳しく解説!

✔ あわせて読みたい
Excelで実践Cpk|自工程の安定性は十分か?工程能力の算出方法

品質管理の超基本_工程能力指数Cpkの意味合い、計算方法まで詳しく解説!

まとめ

この記事では、外れ値について解説しました。

ポイントを整理すると次の通りです。

  • 外れ値とは他のデータから大きく離れた値
  • 外れ値は平均や標準偏差に大きく影響する
  • ヒストグラムや箱ひげ図で確認できる
  • 品質管理では工程異常の兆候となることがある

データ分析では、まず「データの分布」や「外れ値の有無」を確認することが重要です。
外れ値の存在を理解することで、より正確な統計解析を行うことができます。

本サイトでは、ExcelやMinitabを使った
製造現場向けの統計活用方法を体系的に解説しています。

今後、実務者向け統計解析セミナーも開催予定ですので、興味のある方はぜひ他の記事もご覧ください
詳しくはお問い合わせフォームよりご連絡ください。
また、統計相談はサイドバーのココナラよりお受付しています。

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

上部へスクロール